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内 容 简 介 


现代 计算 机 系统 的 软 硬 件 架构 十 分 复杂 ， 是 所 有 IT 相关 技术 的 根源 。 本 书 尝试 从 原始 的 零 认 知 状态 开始 ， 逐 
步 从 最 基础 的 数字 电路 一 直 介 绍 到 计算 机 操作 系统 以 及 人 工 智 能 。 本 书 用 通俗 的 语言 、 恰 到 好 处 的 疑问 、 符 合 原生 
态 认 知 思维 的 切入 点 ， 来 帮助 读者 洞悉 整个 计算 机 底层 世界 。 本 书 在 写作 上 遵循 “ 先 介绍 原因 ， 后 思考 ， 然 后 介绍 
解决 方案 ， 最 终 提 炼 抽象 成 概念 ”的 原则 。 全 书 脉络 清晰 ， 带 领 读者 重 走 作者 的 认 知之 路 。 本 书 集 科普 、 专 业 为 一 
体 ， 用 通俗 详尽 的 语言 、 图 表 、 模 型 来 描述 专业 知识 。 

本 书 内 容 涵盖 以 下 学 科 领 域 .计算 机 体系 结构 、 计 算 机 组 成 原理 、 计 算 机 操作 系统 原理 、 计 算 机 图 形 学 、 高 性 
能 计算 机 集群 、 计 算 加 速 、 计 算 机 存储 系统 、 计 算 机 网 络 、 机 器 学 习 等 。 

本 书 共 分 为 12 章 。 第 1 章 介绍 数字 计算 机 的 设计 思路 ， 制 作 一 个 按键 计算 器 ， 在 这 个 过 程 中 逐步 理解 数字 计 
算 机 底层 原理 。 第 2 章 在 第 1 章 的 基础 上 ， 改 造 按键 计算 器 ， 实 现 能 够 按照 编 好 的 程序 自动 计算 ， 并 介绍 对 应 的 处 
理 器 内 部 架构 概念 。 第 3 章 介绍 电子 计算 机 的 发 展 史 ， 包 括 芯片 制造 等 内 容 。 第 4 章 介绍 流水 线 相关 知识 ， 包 括 流 
水 线 、 分 支 预测 、 乱 序 执行 、 超 标量 等 内 容 。 第 5 章 介绍 计算 机 程序 架构 ， 理 解 单个 、 多 个 程序 如 何在 处 理 器 上 编 
译 、 链 接 并 最 终 运行 的 过 程 。 第 6 章 介绍 缓存 以 及 多 处 理 器 并 行 执行 系统 的 体系 结构 ， 包 括 互联 架构 、 缓 存 一 致 性 
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多 处 理 器 微 体系 结构 


多 核心 与 缓存 


可 大 话 计算 机 一 一 计算 机 系统 底层 架构 原理 极限 剖析 


、\ 们 在 第 4 章 中 介绍 过 流水 线 、 多 发 射 、 超 标量 等 

概念 和 对 应 的 示意 设计 。 这 些 技术 无 一 不 是 为 
了 将 指令 并 行 地 执行 而 设计 的 。 那 时 候 ， 咱 们 还 不 知 
道 有 “线程 ”这 个 概念 ， 还 是 假设 CPU 上 只 有 一 个 线 
程 在 运行 ， 这 个 线路 穿 起 来 一 堆 的 代码 ， 利 用 流水 
线 、 多 发 射 ， 将 该 线路 中 的 这 一 堆 代码 三 三 两 两 地 并 
行 执行 ， 并 在 ROB 中 重新 排序 ， 最 后 提交 到 数据 寄存 
器 。 可 以 在 同一 个 时 刻 并 行 发 射 多 条 指令 的 前 提 是 : 
指令 之 间 要 做 好 去 除 部 件 冲突 导致 的 伪 相 关 《〈 除 了 
RAW 之 外 的 相关 ) ， 比 如 利用 寄存 器 重 命名 机 制 解决 
寄存 器 争 抢 冲 突 、 放 置 多 个 计算 ALU/FPU 以 解决 对 计 
算 单元 的 争 抢 冲突 导致 的 排队 串 行 化 。 


6.1 从 超 线程 到 多 核心 


而 现在 我 们 知道 了 ， 内 存 中 的 一 堆 代 码 ， 可 能 有 
多 个 执行 线路 ， 每 个 线路 是 一 个 线程 ， 每 个 线程 轮流 
被 调度 到 流水 线 上 执行 。 也 就 是 说 ， 流 水 线 上 正在 执 
行 的 指令 总 是 某 个 线程 内 的 一 堆 指 令 。 我 们 在 第 5 章 中 
也 说 过 ， 这 种 高 速 切 换 线程 执行 所 产生 的 效果 ， 可 以 
给 人 脑 一 种 错觉 ， 认 为 所 有 线程 在 被 “同时 ”执行 。 然 
而 ， 能 不 能 让 多 个 线程 真 的 在 同一 时 刻 都 并 行 执行 呢 ? 


6.1.1 ВЕЗЕТ 


试想 一 下 ， 线 程 是 什么 。 线 程 除了 是 一 堆 被 串 起 
来 的 代码 之 外 ， 它 还 有 : 入 口 地 址 、 上 一 次 被 打 断 时 
执行 到 哪里 了 《 断 点 地 址 ) 、 其 运行 时 的 栈 帧 被 放 在 


哪里 了 〔 栈 项 和 栈 底 指针 ) 、 断 点 时 各 个 数据 寄存 器 
的 值 、 它 的 代码 和 数据 ( 放 在 内 存 里 )、 线 程 的 虚拟 
地 址 页 表 基 地 址 ， 等 等 。 只 要 知道 这 些 信息 ， 起 码 就 
可 以 把 这 个 线程 继续 运行 起 来 。 线 程 运行 的 时 候 ， 需 
要 什么 资源 呢 ? 需要 一 个 地 址 指挥 棒 (PC 指针 不 断 
自 增 ) ， 需 要 流水 线 中 的 译 码 、 执 行 、 写 回 等 硬件 模 
块 ， 需 要 内 存 来 存放 它 的 代码 和 数据 ， 需 要 各 个 数据 
寄存 器 。 那 么 ， 现 在 需要 用 一 条 流水 线 、 一 套 寄存 器 
来 同时 运行 多 个 线程 的 代码 的 话 ， 也 就 是 说 线程 调度 
器 要 让 CPU 同一 时 刻 将 多 个 线程 的 指令 混杂 地 载 入 流 
水 线 执行 ， 就 需要 为 这 些 线程 提供 好 这 些 资源 。 流 水 
线 可 以 大 家 一 起 同时 用 ， 因 为 流水 线 是 分 了 好 几 个 级 
的 ， 可 以 同时 容纳 多 条 指令 的 不 同 执行 阶段 ， 那 就 可 
以 让 多 个 线程 的 指令 被 同时 载 入 流水 线 ， 只 不 过 位 于 
不 同 级 ， 做 到 真 的 同时 ;那么 ，PC 指 针 寄存 器 可 以 共 
用 么 ? 显然 不 行 ， 怎 么 可 能 在 一 个 寄存 器 中 同时 放置 
多 个 线程 的 下 一 条 指令 的 地 址 昵 。 所 以 ， 需 要 新 设立 
对 应 数量 的 PC 指针 寄存 器 ， 各 自 存储 各 自 所 归属 线程 
的 下 一 条 指令 的 地 址 ， 同 理 ， 栈 指针 寄存 器 也 不 可 以 
公用 ， 也 得 设立 多 份 ， 再 者 ， 单 个 可 见 数据 寄存 器 无 
法 同时 存 多 个 数 ， 但 是 咱们 之 前 不 是 设计 了 一 堆 的 物 
理 寄存 器 么 ? 利用 寄存 器 重 命名 ， 就 可 以 同时 存储 多 
个 线程 指令 中 的 运算 中 间 值 ， 做 到 同时 。 页 表 基 地 址 
寄存 器 也 不 可 能 同时 保存 多 个 基地 址 指针 ， 所 以 也 得 
给 每 个 线程 设立 一 份 。 最 后 剩 下 内 存 了 ， 内 存 可 以 公 
НА? 当然 ， 多 个 线程 的 代码 和 数据 本 来 就 被 同时 存 
储 在 内 存 的 不 同位 置 ， 互 不 冲突 。 实 际 上 ， 需 要 复制 
出 来 多 套 的 东西 还 有 很 多 ， 图 6-1 所 示 为 Intel x86 CPU 


The following features are duplicated for each logical processor: 
• General purpose registers (EAX, EBX, ECX, EDX, ESI, EDI, ESP, and EBP) 


Segment registers (CS, DS, SS, ES, FS, and GS) 


• EFLAGS and EIP registers. Note that the CS and EIP/RIP registers for each logical processor point to the 
instruction stream for the thread being executed by the logical processor. 


* x87 FPU registers (STO through 577, status word, control word, tag word, data operand pointer, and instruction 


pointer) 
MMX registers (MMO through MM7) 


Time stamp counter MSRs 


Local APIC registers. 


Intel 64 processors. 


XMM registers (XMM0 through XMM7) and the MXCSR register 

Control registers and system table pointer registers (GDTR, LDTR, IDTR, task register) 

Debug registers (DR0, DR1, DR2, DR3, DR6, DR7) and the debug control MSRs 

Machine check global status (IA32_MCG_STATUS) and machine check capability (IA32_MCG_CAP) MSRs 
Thermal clock modulation and ACPI Power management control MSRs 


Most of the other MSR registers, including the page attribute table (PAT). See the exceptions below. 


Additional general purpose registers (R8-R15), XMM registers (XMM8-XMM15), control register, IA32_EFER on 


图 6-1 Intel x86 CPU 超 线程 所 需 复制 的 硬件 模块 一 览 


超 线程 所 需 复制 的 硬件 模块 一 览 。 

经 过 这 样 设计 ， 不 同 线程 拥有 各 自 的 PC 寄存 器 、 
栈 指针 寄存 器 、 物 理 寄存 器 (这 些 寄 存 器 统称 为 线程 
上 下 文 寄存 器 ，Thread Context Register) 、 内 存 中 数 
据 。 各 自 的 PC 寄存 器 被 各 自 的 指令 引导 着 ， 要 么 自 
增 ， 要 么 跳 转 ， 各 增 各 的 ， 各 跳 各 的 ， 互 不 干扰 。 至 
此 好 像 资 源 都 准备 好 了 ， 可 以 执行 了 么 ? 还 有 个 关键 
的 地 方 。 假 设 第 一 个 线程 中 的 一 条 Divide AB C 指 令 ， 
和 第 二 个 线程 中 的 一 条 Add C B A 指令 同时 被 载 入 了 
流水 线 ， 你 说 这 两 条 指令 冲突 么 ? 看 似 是 发 生 了 RAW 
冲突 ，Add 需 要 利用 Divide 指 令 的 结果 。 但 是 它 俩 实 
际 上 根本 就 是 毫 无 关系 的 两 条 指令 ， 因 为 这 完全 是 两 
个 线程 ， 两 条 路 线 ， 还 记得 上 一 章 中 的 “你 的 一 天 ” 
和 “ 猪 的 一 天 ”这 两 个 线程 么 ? 虽然 小 猪 也 要 吃饭 ， 
你 也 要 吃饭 ， 比 如 其 中 某 一 步 使 用 了 相同 的 指令 ， 都 
要 吃 ， 但 是 该 指令 操作 的 数据 可 是 完全 不 同 的 ， 也 就 
是 你 和 小 猪 吃 的 饭 是 不 同 的 ， 这 个 指令 之 前 、 之 后 的 
逻辑 也 很 有 可 能 是 不 同 的 ， 也 就 是 上 下 文 是 不 同 的 。 
如 果 底 层 不 加 以 区 分 ， 把 小 猪 要 吃 的 东西 作为 你 的 指 
令 中 的 操作 数 怎么 办 ? 所 以 ， 这 里 多 个 线程 的 代码 只 
是 公用 了 寄存 器 而 已 ， 属 于 一 种 部 件 访问 冲突 С 
相关 ) ， 是 可 以 通过 新 设 一 套 对 应 的 部 件 来 解决 的 ， 
但 是 这 里 需要 用 同一 条 流水 线 来 节省 资源 ， 那 就 得 想 
其 他 办 法 解决 。 必 须要 让 流水 线 控制 部 件 感知 到 这 两 
条 指令 是 不 同 路 线 里 的 ， 毫 不 相关 。 可 以 在 保留 站 中 
增加 一 列 ， 记 录 每 一 条 指令 到 底 是 属于 哪个 线程 的 
(线程 ID) ， 这 个 ID 可 以 由 硬件 自动 加 入 ， 对 程序 
代码 完全 透明 ， 比 如 ， 第 一 路 PC 寄存 器 取 进 来 的 指 
令 属于 线程 ID1， 第 二 个 PC 寄存 器 取 进 来 的 指令 属于 
线程 ID2。 这 样 就 可 以 让 发 射 控制 单元 区 分 出 来 了 ， 
只 要 将 这 两 条 指令 的 目标 操作 数 映射 到 物理 寄存 器 中 
就 可 以 解决 冲突 ， 就 可 以 并 行 执 行 。 这 里 有 多 种 设计 
思路 ， 比 如 可 以 在 物理 上 将 寄存 器 分 隔 开 ， 如 每 个 线 
程 分 配 16 个 物理 寄存 器 ， 共 支持 4 线程 ， 一 共有 64 个 
物理 寄存 器 ; 也 可 以 让 所 有 线程 混杂 使 用 这 64 个 寄存 
器 ， 使 用 单独 的 ID 来 记录 哪个 寄存 器 目前 被 哪个 线程 
所 使 用 。 

现在 思考 一 个 引申 问题 ， 多 个 线程 的 指令 到 底 
应 该 怎么 被 塞 入 流水 线 ? 你 一 条 我 一 条 他 一 条 ， 一 人 
一 条 地 来 交织 CInterleave) ， 还 是 两 条 两 条 地 交织 ? 
还 是 按照 某 种 更 小 的 时 间 窗 口 来 交织 ， 比 如 你 执行 
lms， 我 执行 lms， 他 再 执行 lms? 根据 不 同 的 设计 思 
路 ， 实 际 中 的 设计 各 有 不 同 。 比 如 有 些 设计 采用 事件 
触发 的 形式 ， 如 线程 1 发 出 了 一 个 Load 指 令 ， 结 果 没 
有 命中 缓存 ， 需 要 访问 SDRAM， 此 时 可 以 立即 决定 
切换 到 线程 2 执行 ， 因 为 访问 SDRAM 需 要 很 长 时 间 ， 
空 等 不 划算 。 缓 存 不 命中 这 个 事件 触发 了 线程 切换 。 
GE: 这 里 所 谓 触 发 了 线程 切换 并 不 是 指 触发 了 操作 
系统 中 的 程序 对 线程 进行 切换 ， 此 时 操作 系统 认为 多 
个 线程 都 处 于 运行 过 程 中 ， 但 是 CPU 内 部 却 同一 时 刻 
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只 在 运行 一 个 线程 的 代码 。 操 作 系统 线程 切换 流程 详 
见 第 10 章 。) 

比如 有 些 采 用 严格 的 单 指令 轮流 交织 ， 有 些 则 动 
态 地 调整 交织 粒度 ， 有 时 候 一 人 一 条 ， 有 时 候 你 一 条 
我 两 条 他 三 条 ， 不 定 。 有 些 则 根据 时 间 窗 来 交织 。 有 
些 则 在 不 同 的 执行 阶段 采用 不 同 策略 ， 比 如 AMD 在 
2017 年 推出 的 Ryzen 锐 龙 系列 CPU 在 指令 队列 中 采用 
Round Robin 轮 流 方式 ， 在 寄存 器 重 命名 阶段 采用 加 
权 优 先 级 方式 调度 ， 而 在 Load/Stor 时 采用 静态 分 区 的 
方式 物理 上 把 资源 隔 开 给 多 个 线程 使 用 。 可 见 ， 上 述 
动态 调整 交织 粒度 的 做 法 最 为 复杂 ， 需 要 在 硬件 中 记 
录 更 多 状态 和 判断 规则 ， 比 如 CPU 发 现 线程 A 的 代码 
内 部 的 RAW 相关 度 太 高 ， 而 且 都 是 些 耗 时 的 RAW， 
如 DivideAB C, Add C BA, Sub ABD, Mul DAB 
这 几 个 指令 ， 由 于 Divide 指 令 耗 时 较 长 ， 后 续 这 三 条 
指令 都 卡 在 保留 站 里 等 待 被 发 射 ， 等 待 期 间 加 减法 
ALU 被 闲置 了 ， 乘 法 单元 也 被 限制 了 。 如 果 这 类 指令 
太 多 ， 很 快 就 会 塞 满 保留 站 ， 导 致 流水 线 整体 停顿 。 
与 其 在 这 干 耗 着 ， 不 如 择机 载 入 一 段 线程 B 的 代码 执 
行 着 ， 把 流水 线 中 的 资源 利用 起 来 。 而 根据 时 间 窗 来 
交织 ， 实 现 最 为 简单 ， 因 为 不 会 出 现 上 文中 说 的 那 种 
两 条 分 属 不 同 线程 的 指令 需要 被 区 分 的 问题 。 

如 果 按 照 时 间 窗 来 交织 ， 也 就 是 让 CPU 一 段 时 间 
内 载 入 线程 A 的 代码 执行 ， 然 后 切换 到 线程 B 执 行 一 
段 时 间 ， 这 段 时 间 比如 可 以 是 几 毫 秒 。 这 样 就 可 以 保 
证 多 个 线程 的 代码 不 会 相互 无 序 掺 杂 在 一 起 ， 也 就 不 
会 出 现 上 面 那 个 两 条 看 似 相 关 的 指令 分 属 不 同 线程 ， 
其 本 质 其 实 不 相关 ， 必 须 增加 线程 ID 而 且 在 发 射 控制 
单元 中 增加 判断 逻辑 的 问题 。 

H? 在 第 5 章 中 我 们 不 是 已 经 介绍 过 利用 时 钟 中 
断 强行 切换 线程 的 思路 和 设计 了 么 ? 这 不 就 是 时 间 窗 
交织 么 ? 靠 线程 调度 器 来 切换 不 就 可 以 了 么 ? 但 是 ， 
线程 内 部 代码 之 间 的 相关 度 如 何 ， 以 及 代码 能 否 能 够 
充分 利用 流水 线 ， 这 两 个 信息 线程 调度 器 是 根本 无 法 
发 现 的 ， 这 些 只 能 靠 CPU 的 硬件 电路 模块 在 运行 时 动 
态 地 判断 出 来 ， 所 以 必须 由 CPU 决定 运行 A 线 程 多 长 
时 间 ， 然 后 切换 到 B 线 程 运行 多 长 时 间 。 既 然 这 样 ， 
可 以 这 样 设计 ， 只 要 CPU 决定 切换 线程 ， 就 自动 将 自 
己 中 断 ， 就 像 发 生 了 一 个 时 钟 中 断 一 样 ， 然 后 在 保护 
现场 之 后 ， 跳 转 到 时 钟 中 断 服务 程序 执行 ， 最 后 执行 
到 线程 调度 这 一 步 ， 就 可 以 调度 其 他 线程 执行 了 。 但 
是 这 样 做 不 太 理想 ， 上 一 章 我 们 看 到 了 ， 产 生 一 个 中 
断 的 代价 是 很 高 的 ， 能 不 能 不 用 中 断 ， 而 在 CPU 决定 
载 入 其 他 线程 代码 时 直接 载 入 呢 ? 因为 我 们 已 经 给 其 
他 线程 准备 好 它 所 需要 的 资源 了 (PC 寄存 器 、 栈 指针 
寄存 器 等 ) ， 这 样 可 以 省 掉 现 场 保护 、 载 入 新 线程 的 
相关 寄存 器 这 些 步 又。 既然 这 样 ， 线 程 调 度 器 就 要 被 
设计 为 一 次 调度 多 个 线程 到 CPU 上 执行 ， 然 后 CPU 硬 
件 决 定 某 段 时 间 内 执行 哪个 就 执行 哪个 。 时 钟 中 断 到 
来 后 ， 线 程 调度 器 再 调度 另外 的 多 个 线程 (或 者 可 能 
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还 是 这 几 个 ， 或 者 换 掉 其 中 某 个 / 几 个 ) 到 CPU 上 执 
行 。 这 样 的 话 ， 时 钟 中 断 之 后 的 处 理 方法 保持 不 变 ， 
变化 的 则 是 每 次 需要 调度 多 个 而 不 是 只 有 一 个 线程 到 
CPU 上 ， 把 每 个 被 调度 线程 的 PC 寄存 器 、 栈 寄存 器 的 
值 安装 到 前 文中 所 述 的 每 一 份 线程 的 对 应 寄存 器 中 即 
可 ， 这 些 寄存 器 在 线程 运行 过 程 中 不 断 各 自 变 化 。 在 
两 次 时 钟 中 断 的 时 间 窗 内 《比如 10ms) ，CPU 内 部 的 
电路 可 能 会 在 这 几 个 线程 之 间 来 回 切换 ， 多 次 将 它们 
的 指令 载 入 流水 线 ， 比 如 每 lms 切 换 一 个 线程 ， 这 样 
可 以 让 多 线程 的 切换 粒度 更 细腻 ， 还 避免 了 中 断 导致 
的 开销 。 这 样 不 但 能 够 让 用 户 体验 更 连续 流畅 ， 而 且 
还 能 充分 利用 流水 线 资 源 。 单 指令 粒度 交织 其 实 与 时 
间 窗 交织 本 质 上 没有 区 别 ， 单 指令 交织 可 以 看 作 是 最 
小 时 间 窗 交织 。 

而 更 加 智能 的 动态 交织 做 法 就 会 比较 复杂 ， 但 
是 效果 也 会 更 好 。 它 的 做 法 就 是 见缝插针 ， 比 如 在 
执行 线程 A 时 ， 本 来 是 执行 到 某 处 时 不 得 不 插入 几 条 
NOOP 指 令 空 泡 ， 但 现在 CPU 可 以 不 插入 空 泡 ， 而 将 
线程 B 的 几 条 指令 塞 入 流水 线 ， 利 用 了 这 个 空 泡 。 时 
钟 中 断 到 来 时 ，CPU 也 要 同时 将 这 多 个 线程 的 现场 寄 
存 器 保护 下 来 ， 再 跳 转 到 时 钟 中 断 服务 程序 执行 。 

这 样 设计 看 上 去 不 错 。 那 么 ， 为 了 让 线程 调度 
器 可 以 将 多 个 线程 的 寄存 器 的 值 从 内 存 中 〔 断 点 时 被 
保存 到 内 存 中 的 线程 状态 表 中 ) 载 入 到 各 自 线程 的 
PC、 栈 、 页 表 基 地 址 等 寄存 器 ， 是 不 是 要 给 每 个 线 
程 的 这 些 寄存 器 编 个 号 ， 然 后 新 设计 一 套 专门 用 于 
多 线程 场景 的 指令 ， 比 如 Jmp_PC0、Jmp_PC1 (分 别 
表示 将 断 点 地 址 载 入 0 号 、1 号 线程 的 PC 寄存 器 ) ， 
或 者 LPTBR0、LPTBR1 (Load Page Table Baseaddres 
Register， 分 别 表示 载 入 0 号 、1 号 线程 的 页 表 基 地 址 
指针 ) ， 然 后 修改 线程 调度 器 ， 使 用 这 些 新 指令 来 
实现 多 线程 并 行 调度 到 CPU 上 执行 。 如 果 这 样 的 话 ， 
实现 就 有 点 复杂 了 。 人 们 其 实用 了 一 个 更 加 绝妙 的 
办 法 。 

在 收 到 时 钟 中 断 之 后 ， 大 家 都 知道 CPU 要 跳 到 时 
钟 中 断 服务 程序 运行 然后 跳 到 线程 调度 器 运行 。 现 在 
不 是 有 多 套 线程 上 下 文 状态 寄存 器 了 么 ? 那 就 让 这 
多 个 PC 指针 都 跳 转 到 同一 个 /同一 份 时 钟 中 断 服务 程 
序 ， 然 后 跳 到 线程 调度 器 执行 。 什 么 ? 多 个 线路 都 在 
执行 同一 份 代码 ? 怎么 ， 不 可 以 么 ? 记得 冬瓜 哥 在 前 
面 章 节 就 提 到 过 ， 多 个 厨师 可 以 看 同一 份 菜谱 步骤 
(代码 ) ， 各 自 做 出 各 自 的 菜 〈 运 算 结果 数据 ) 。 但 
是 ， 前 提 是 ， 菜 谱 里 需要 这 么 写 : 

#1. 打 着火 ; 

#2. 烧 热 油 ; 

#3. 如 果 是 厨师 A 在 掌 勺 请 跳 到 6 号 指令 ， 如 果 不 是 则 跳 到 4 
号 指令 ; 

#4. 如 果 是 厨师 B 在 掌 勺 请 跳 到 7 号 指令 ， 如 果 不 是 则 跳 到 5 
号 指令 ， 

#5. 警报 警报 ! 无 法 识别 的 掌 勺 人 ! (产生 错误 消息 并 停止 


运行 ) ， 

#6. КА ЖЛЕВИН, НОУ КЕ, Ж, И, БИШ 
出 锅 ; 

#7. МАЧЕВА, MAS КЕ, KE, МЕ И 
出 锅 。 

这 是 一 份 鱼 香 肉 丝 的 代码 ， 但 是 不 同 厨 师 执行 
的 时 候 却 走 了 不 同 的 分 支 ， 输 出 了 不 同 口味 的 数据 ， 
也 就 是 发 生 了 不 同 的 结果 。 那 么 谁 说 不 同 的 执行 者 
СО 不 能 运行 同一 份 代码 ? 完全 可 以 ， 即 使 代码 
中 不 加 判断 ， 充 其 量 两 个 执行 者 做 出 了 完全 一 样 的 菜 
看 罢了 。 看 到 这 里 你 应 该 隐约 就 知道 了 ， 在 线程 调 
度 器 中 ， 加 入 “判断 当前 是 谁 在 执行 ”的 代码 。 怎 
么 得 知 这 个 信息 ? 需要 利用 CPU 指令 集中 的 一 条 叫 作 
“CPUID” (CPU Identity) 的 指令 。CPU 执 行 这 条 
指令 之 后 ， 会 将 自己 的 ID 号 以 及 最 多 支持 多 少 个 线程 
的 并 行 执行 等 信息 放 到 数据 寄存 器 中 ， 然 后 程序 再 用 
Stor 指 令 将 数据 寄存 器 中 的 内 容 保存 到 内 存 中 某 处 就 
可 以 拿 到 对 应 信息 了 。 调 度 器 程序 根据 最 大 支持 的 并 
行 线程 数 〈 内 部 做 了 多 少 套 线 程 上 下 文 状态 寄存 器 ) 
以 及 当前 是 哪 套 线程 上 下 文 状态 寄存 器 在 驱动 着 电路 
执行 的 ， 从 而 将 不 同 线程 的 上 下 文 状态 寄存 器 的 上 一 
次 的 断 点 值 复制 到 当前 的 上 下 文 状态 寄存 器 中 接续 
执行 。 

这 样 设计 之 后 ，Jmp、 装 载 栈 指针 、 装 载 页 表 指 
针 等 指令 都 可 以 保持 不 变 ， 因 为 这 些 指令 操纵 的 就 是 
当前 的 硬件 。 比 如 1 号 PC 寄存 器 对 应 的 硬件 执行 了 装 
载 页 表 指针 这 条 指令 ， 那 么 其 装载 的 页 表 指 针 一 定 是 
这 样 一 个 线程 的 页 表 指 针 : 该 线程 由 线程 调度 器 指定 
将 、 将 要 被 调度 到 由 第 一 套 线 程 上 下 文 状态 控制 部 件 
了 驱动 的 硬件 上 运行 。 同 理 第 二 套 上 下 文 状态 控制 寄存 
器 也 在 做 同样 的 事情 ， 只 不 过 它 所 载 入 的 将 会 是 另外 
线程 的 页 表 指 针 。 这 样 就 完成 了 调度 任务 。 

线程 调度 器 感知 到 的 其 实 是 多 个 虚拟 CPU С 
以 让 计算 机 操作 员 明 确 地 看 到 系统 中 的 逻辑 CPU 的 
个 数 ， 比 如 可 以 通过 程序 发 出 CPUID 指 令 获 取 虚 拟 
CPU 的 数量 然后 列 出 到 屏幕 上 ) ， 或 者 说 逻辑 CPU， 
每 套 线程 上 下 文 状态 寄存 器 和 控制 部 件 就 是 一 个 罗 
辑 CPU， 它 们 被 中 断后 各 自 都 跳 到 同一 个 地 址 入 口 ， 
也 就 是 线程 调度 程序 入 口 ， 当 执行 到 调度 程序 中 的 
CPUID 指 令 时 ， 后 续 执行 路 径 发 生 了 差异 ， 代 码 开 
始 产生 分 支 〈 因 为 每 个 逻辑 CPU 返回 的 信息 都 不 一 
样 ) ， 从 而 控制 着 每 个 逻辑 CPU 做 了 不 同 的 事情 СА 
自 载 入 不 同 的 线程 执行 ) 。Windows 10 操 作 系统 的 任 
务 管 理 器 中 就 可 以 展示 出 物理 CPU 或 者 逻辑 CPU 的 负 
载 情况 视图 。 


那么 系统 具体 是 如 何在 初始 时 向 这 些 逻 辑 CPU 


派发 线程 运行 呢 ? 现代 操作 系统 一 般 会 给 每 个 逻辑 
CPU 在 内 存 中 特定 位 置 准备 对 应 的 线程 队列 ， 线 程 


调度 模块 把 要 在 该 CPU 上 执行 的 所 有 线程 的 对 应 的 
入 口 地 址 等 信息 写 入 到 该 队列 里 。 系 统 启动 时 会 有 
一 个 主 核心 负责 初始 化 操作 ， 祝 贺信 在 初始 化 流 
程 后 期 采用 IPI ( 处 理 期 间 中 断 ， 详 见 第 10 章 ) 来 
通告 其 他 逻辑 CPU 也 开始 运行 线程 调度 模块 ( 线 
程 调度 模块 的 入 口 地 址 会 被 包含 在 IPI 中 断 消息 中 
传递 给 对 方 CPU ) ， 线 程 调度 模块 根据 当前 CPU 
的 ID 决 定 到 不 同 的 运行 队列 中 调度 对 应 的 线程 
运行 。 


至 此 总 结 一 下 。 这 种 用 同一 条 流水 线 、 同 一 套数 
据 寄存 器 ， 但 是 每 个 线程 各 自 对 应 一 套 上 下 文 状态 寄 
存 器 ， 然 后 利用 不 同 的 交织 粒度 同时 运行 多 个 线程 指 
令 的 设计 ， 称 为 超 线程 (Hyper Threading) 。 如 果 交 
织 的 粒度 比较 粗 ， 比 如 基于 固定 时 间 窗 或 者 一 定数 量 
的 指令 或 者 某 些 事件 〈 比 如 缓存 不 命中 ) 触发 为 一 个 
切换 粒度 的 话 ， 被 称 为 粗 粒度 超 线程 ， 如 果 时 间 窗 较 
小 ， 比 如 达到 了 单条 指令 为 切换 粒度 ， 这 被 称 为 细 粒 
度 超 线程 。 

在 早期 的 超 线程 设计 中 ， 流 水 线 的 各 个 执行 级 
中 只 处 理 同一 个 线程 的 指令 ， 但 是 不 同 级 可 以 处 理 不 
同 线程 的 指令 ， 比 如 取 指 令 单元 在 某 个 时 钟 周期 内 只 
从 某 个 线程 取 回 一 定量 的 指令 (利用 该 线程 的 PC 寄 
存 器 ) ， 与 此 同时 ， 译 码 级 电路 可 能 正在 译 码 另外 一 
个 线程 的 指令 ， 而 在 下 一 个 时 钟 周 期 ， 取 指令 单元 切 
换 到 使 用 另 一 个 线程 的 PC 寄存 器 来 取 指 令 ， 与 此 同 
时 译 码 单元 则 开始 译 码 上 一 步 取 回 的 上 一 个 线程 的 指 
令 。 后 来 Intel 公 司 做 了 改进 ， 在 取 指令 级 上 ， 每 个 周 
期 切换 一 次 线程 的 PC 寄存 器 取出 对 应 指令 ， 进 入 译 
码 阶 段 ， 译 码 阶段 每 个 周期 也 就 跟着 分 别 译 码 某 个 线 
程 的 指令 ， 达 到 细 粒 度 超 线 程 级 别 。 然 而 ， 在 所 有 指 
令 进 入 保留 站 之 后 ， 在 发 射 阶段 ， 则 允许 同时 发 射 多 
个 线程 的 指令 到 运算 单元 执行 ， 而 不 是 像 传统 细 粒 度 
超 线程 那样 发 射 阶段 必须 发 射 同一 个 线程 的 指令 。 这 
种 改进 之 后 的 超 线程 技术 被 称 为 同时 多 线程 (SMT， 
Simultaneous Multi Threading) 。SMT 技 术 是 真正 意义 
上 的 “并 行 ”， 也 就 是 同一 时 刻 多 个 线程 的 代码 齐 头 
并 进 地 被 发 射 执 行 ， 其 他 超 线程 技术 本 质 上 都 是 超 细 
时 间 粒 度 的 切换 线程 而 已 。 

可 以 看 到 ， 在 使 用 流水 线 、 多 发 射 等 技术 实现 
了 单个 线程 内 部 多 个 指令 可 以 并 行 执行 之 后 ， 利 用 
超 线程 技术 实现 了 多 个 线程 的 指令 流 级 别 的 并 行 执 
行 ， 前 者 被 称 为 指令 级 并 行 (ПР, Instruction Level 
Parallel) ， 后 者 则 被 称 为 线程 级 并 行 (TLP, Thread 
Level Parallel) 。 线 程 级 并 行 的 效果 是 用 户 可 以 感受 到 多 
个 独立 的 任务 同时 执行 而 且 切换 比较 流畅 ， 而 单线 程 内 
部 的 指令 级 并 行 ， 用 户 能 感受 到 的 效果 则 是 单个 任务 的 
执行 速度 很 快 ， 响 应 延迟 变 低 。 当 然 ， 如 果 二 者 兼 具 ， 
则 同时 提升 了 并 发 度 和 降低 了 延迟 ， 体 验 会 更 好 。 

值得 一 提 的 是 ， 分 支 预测 单元 也 应 当 感 知 超 线程 
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的 存在 ， 也 就 是 需要 为 超 线程 做 对 应 的 设计 变更 ， 它 
必须 为 每 个 线程 单独 预测 分 支 ， 甚 至 可 以 准备 单独 的 
BTB、PHT 等 ， 并 更 新 各 自 线程 的 PC 寄存 器 为 预测 出 
来 的 目标 地 址 ， 而 不 能 把 多 个 线程 的 指令 混杂 起 来 进 
行 预测 ， 这 样 就 乱 套 了 ， 预 测 正确 率 将 会 大 大 降低 。 

超 线程 对 流水 线 上 的 执行 部 件 是 多 线程 争 用 的 ， 
BTB、 保 留 站 、 各 种 缓冲 队列 等 都 需要 同时 存放 多 个 
线程 的 指令 /数据 ， 有 些 设 计 完 全 采用 物理 平均 分 割 
的 方式 来 分 割 上 述 这 些 资源 ， 比 如 ， 保 留 站 总 体 上 有 
256 项 ， 打 开 x2 超 线程 之 后 ， 每 个 线程 只 能 利用 128 
项 ， 超 出 就 不 能 使 用 了 。 这 样 做 硬件 实现 最 为 简单 但 
是 也 很 不 灵活 ， 比 如 假设 当前 只 有 1 个 线程 在 执行 ， 
线程 2 发 生 了 Cache Miss 正 在 等 待 返回 数据 ， 那 么 线程 
1 也 只 能 利用 128 项 ， 如 果 程 序 的 行为 导致 经 常 发 生 这 种 
情况 ， 那 么 此 时 可 以 关闭 超 线程 ， 则 单个 线程 就 可 以 利 
用 全 部 资源 了 ， 总 体 性 能 反而 能 够 提升 。 有 些 超 线程 设 
计 是 动态 分 配 资源 的 ， 用 多 少 占 多 少 ， 某 线程 暂时 不 用 
则 另 一 个 可 以 全 用 满 ， 这 样 更 合理 ， 性 能 也 更 好 。 有 些 
CPU 设计 里 ， 对 资源 A 对 半分 ， 对 资源 B 又 动态 分 ， 
这 导致 更 难以 判断 超 线程 到 底 是 否 会 增益 整体 性 能 。 


超 线程 并 不 是 任何 时 候 都 可 以 提升 性 能 的 ， 如 
果 同 一 条 流水 线 上 的 多 个 线程 运行 时 都 由 于 指令 的 
RAW 相关 或 者 由 于 访 存 等 因素 导致 流水 线 阻塞 的 
话 ， 此 时 就 只 能 怪 运气 差 了 。 


6.1.2 多 核心 /多 CPU 并 行 


我 想 ， 早 在 大 家 阅读 第 4 章 的 时 候 ， 一 定 有 不 少 
人 会 产生 这 个 想法 : 为 什么 不 能 在 CPU 里 做 上 多 条 
流水 线 、 多 套 寄存 器 、 多 套 PC/ 栈 /页 表 基地 址 寄存 器 
呢 ? 这 本 质 上 不 就 等 价 于 多 个 CPUT 了 人 么 ? ЖИ, м 
期 的 高 端 计算 机 就 是 使 用 多 个 独立 的 CPU 芯片 共同 连 
接 到 SDRAM 上 的 ， 但 是 随 着 芯片 制造 工艺 的 不 断 提 
升 ， 上 面 这 些 模块 其 实 完全 可 以 做 成 多 套 并 被 放 到 同 
一 个 芯片 内 部 ， 不 需要 多 个 独立 芯片 。 同 一 个 芯片 内 
部 每 一 套 上 述 这 堆 部 件 ， 被 称 为 该 CPU 芯片 内 部 的 一 
个 核心 (Core) 。 多 个 线程 之 前 住 的 是 合租 房 〈 公 用 
流水 线 和 数据 寄存 器 ) ， 现 在 终于 有 了 自己 的 全 配套 
设施 单间 了 ， 真 的 可 以 完全 各 干 各 地 并 行 执行 了 。 线 
程 被 调度 到 这 些 核心 上 的 过 程 与 超 线程 是 一 样 的 ， 每 
个 核心 都 是 一 个 执行 者 ， 线 程 调度 器 同样 会 感知 到 多 
个 逻辑 CPU， 只 不 过 此 时 每 个 逻辑 CPU 是 全 配套 设施 
的 ， 而 不 是 有 些 设施 公用 的 。 实 际 上 ， 线 程 调度 器 等 
软件 程序 除非 使 用 CPUID 等 控制 类 指令 来 获取 深层 次 
信息 ， 否 则 也 无 法 感知 某 个 逻辑 CPU 到 底 是 被 CPU 内 
部 超 线 程 模块 虚拟 出 来 的 ， 还 是 物理 上 独立 的 核心 。 

现在 实际 的 产品 中 普遍 都 在 核心 中 保留 了 超 线 
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程 ， 比 如 Intel x86 CPU 每 个 核心 支持 2 个 超 线程 ， 而 
IBM Power8 CPU 每 个 核心 支持 8 个 超 线程 。 这 样 ， 一 
个 8 核心 Power8 CPU 对 外 其 实体 现 为 16 个 逻辑 CPU， 每 
个 逻辑 CPU 每 个 时 刻 可 以 执行 一 个 线程 ， 如 果 两 个 逻辑 
CPU 落 在 同一 个 核心 ， 那 么 这 两 个 逻辑 CPU 所 执行 的 两 
个 线程 会 共用 流水 线 。 至 于 具体 是 如 何 分 配 流水 线 资源 
的 ， 上 文中 也 描述 过 那些 交织 粒度 ， 在 此 不 再 著述 。 
在 单个 核心 中 保留 超 线程 的 原因 是 因为 单个 线程 
无 法 100% 利 用 流水 线 ， 比 如 当 有 大 范围 连续 发 生 的 
RAW 相 关 时 ， 或 者 缓存 不 命中 导致 花费 大 量 时 间 去 访 
问 RAM 时 ,会 导致 流水 线 大 范围 空 泡 ， 此 时 如 果 有 另 
一 个 线路 中 的 指令 能 够 项 上 来 占用 这 些 时 阶 ， 就 可 以 
充分 利用 资源 。 超 线程 其 实 是 一 举 两 得 的 事情 ， 既 充 
分 利用 了 流水 线 资源 ， 又 能 让 多 线程 以 更 小 的 时 间 窗 
齐头并进 ， 提 升 用 户 体验 。 


值得 一 提 的 是 ， 超 线程 被 发 明 的 时 候 ， 其 初衷 
并 不 是 为 了 让 线程 更 加 细 粒 度 地 并 行 提升 用 户 体 
验 ， 因 为 靠 时 钟 中 断 一 样 可 以 做 到 线程 看 上 去 并 
行 ， 而 纯粹 是 看 到 流水 线 没 有 被 单线 程 完全 利用 觉 
得 可 惜 ， 所 以 强行 插入 其 他 线程 。 


此 外 ， 多 个 多 核心 CPU 也 可 以 同时 运行 多 个 线 
程 ， 比 如 4 个 8 核心 2 超 线程 的 CPU， 总 共 的 逻辑 CPU 
数量 为 44， 那么 这 个 系统 在 同一 时 刻 可 以 同时 执行 64 
个 线程 ， 其 中 有 一 半数 量 的 线程 并 行 得 不 是 那么 充 
分 ， 因 为 它们 使 用 的 是 公用 设施 。 可 以 用 特殊 指令 来 
关闭 超 线程 ， 这 样 CPU 内 部 就 不 会 使 能 其 他 线程 的 状 
态 寄存 器 了 ， 只 保留 一 套 。 

但 是 在 现代 CPU 和 现代 的 多 数 程序 场景 下 ， 超 


线程 对 性 能 的 提升 并 不 是 很 明显 ， 因 为 现代 CPU 在 
乱 序 执行 、 分 支 预测 等 方面 的 设计 优化 几乎 做 到 了 
极致 ， 流 水 线 空闲 的 概率 较 低 ， 在 这 种 场景 下 多 个 
线程 就 不 是 共同 利用 流水 线 了 ， 而 是 共同 争 抢 流 水 
线 ， 反 而 可 能 产生 一 些 开 销 ， 比 如 第 一 个 线程 运行 
得 好 好 的 ， 没 有 空 泡 ， 结 果 非 要 调度 第 二 个 线程 来 
乱入 第 一 个 线程 ， 这 样 的 话 ， 配 套 的 分 支 预测 、 乱 
序 执行 顺序 提交 等 模块 就 要 切换 各 自 的 上 下 文 状态 
到 第 二 个 线程 。 为 什么 非 要 调度 第 二 个 线程 呢 ? 如 
果 CPU 看 到 第 一 个 线程 充分 利用 了 流水 线 ， 就 让 它 
一 直 执 行 下 去 不 就 好 了 么 ? 不 可 以 ， 那 此 时 其 他 线 
程 不 就 被 饿 死 了 么 ， 永 远 得 不 到 执行 。 既 然 你 选择 了 
使 用 超 线程 ， 就 会 有 线程 被 调度 上 去 ， 你 又 不 让 人 家 
上 台 执 行 ， 最 后 那些 线程 就 会 卡 住 ， 影 响 用 户 体验 。 

图 6-2 描 述 了 从 最 原始 的 核心 演变 到 超 线程 核心 再 
到 双 物 理 核心 的 过 程 。 
6.1.3 idle 线程 

现在 思考 一 个 问题 。 我 们 在 前 面 章节 中 说 到 过 ， 
CPU 必须 运行 点 什么 ， 就 像 汽 车 发 动机 总 得 转 着 一 
样 ， 一 旦 熄火 ， 就 得 手动 打 火 ， 同 理 ， 如 果 你 不 想 让 
CPU 运行 了 ， 那 就 发 送 一 条 poweroff 指 令 给 CPU，CPU 在 
做 完 一 些 善后 工作 之 后 ， 内 部 的 供电 控制 电路 直接 切断 
自己 的 供电 ， 以 后 就 再 也 不 会 靠 自己 运行 起 来 了 ， 必 须 
重新 手动 再 按 一 下 电源 按钮 。 这 也 是 为 什么 在 上 一 章 中 
需要 让 计算 机 运行 一 个 无 限 循环 的 Loader 程 序 〈Shell) 
的 原因 之 一 ， 让 计算 机 等 待命 令 输 入 。 

现在 ， 我 们 的 CPU 内 部 出 现 了 多 个 逻辑 核心 ОШ 
线程 生成 ) ， 以 及 多 个 物理 核心 ， 相 当 于 之 前 的 单 
мае тж. Ум. Ш, В 
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图 6-2 


从 最 原始 的 核心 演变 到 超 线程 核心 再 到 双 物 理 核心 的 过 程 
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们 一 跑 起 来 就 停 不 下 来 了 。 那 么 ， 假 设 刚 加 电 启 动 
到 Loader 之 后 ， 还 没有 任何 程序 需要 执行 ， 唯 一 的 一 
个 Loader 线 程 被 喂 给 了 其 中 一 个 逻辑 CPU， 其 他 逻辑 
CPU 怎么 办 呢 ? 是 否 可 以 让 其 他 的 每 个 逻辑 CPU 都 载 
入 Loader 和 运行 呢 ? 可 以 ， 但 是 毫 无 意义 ， 而 且 会 得 到 
莫名 其 妙 的 结果 ， 比 如 多 个 CPU 的 每 一 个 都 在 向 屏 
幕 输出 同样 的 信息 ， 而 且 可 能 因为 速度 不 同 导致 闪 
屏 ， 除 非 有 多 个 屏幕 ， 不 同 CPU 输 出 到 不 同 屏幕 。 
可 以 这 样 ， 调 度 一 个 大 循环 while(1) {noop;} 不 断 发 送 
NOOP 指 令 的 线程 给 这 些 CPU， 让 它们 不 断 地 原 地 空 
转 ， 什 么 也 不 输出 ， 这 样 就 好 了 。 可 以 ， 这 些 逻 辑 
CPU 执行 NOOP 指 令 也 是 需要 消耗 电 的 ， 电 子 还 在 电 
路 中 拉锯 发 热 。 最 好 的 办 法 是 让 这 些 无 事 可 做 的 逻辑 
CPU 直接 进入 节能 状态 ， 而 不 是 循环 执行 NOOP 哇 哇 
ЗЕ] “NOOP, М-0-О-Р”. МЫ, ИЯЯ-Л 
CPU“ 安 抚 奶 嘴 ”， 只 要 CPU 一 执行 这 个 线程 ， 就 立 
即 进入 节能 状态 ， 比 如 将 电路 主 模块 的 时 钟 直接 脱 挡 
(Clock Gating) 。 这 就 需要 CPU 的 指令 集中 提供 一 条 
特殊 指令 ， 比 如 Intel CPU 里 使 用 MWAIT (Monitor 
Wait) 指令 让 CPU 静默 ， 将 一 些 电路 模块 的 时 钟 脱 
挡 。 这 个 线程 叫 作 idle 线 程 ， 也 就 是 在 Windows 任 务 
管理 器 中 看 到 的 那个 “System Idle Process”， 其 内 
部 的 主要 逻辑 就 是 发 出 让 CPU 进 入 节能 态 的 指令 。 

思考 一 个 问题 ， 如 果 一 个 物理 核心 上 虚拟 出 两 个 
超 线 程 逻辑 CPU， 其 中 一 个 逻辑 CPU 被 灌输 了 MWAIT 
指令 ， 执 行 后 是 不 是 可 能 会 将 整个 物理 核心 的 时 钟 脱 
挡 了 ? 这 显然 不 行 。 所 以 物理 核心 内 部 的 超 线程 电路 
部 分 会 保证 只 将 该 逻辑 CPU 自己 的 那 部 分 电路 进入 节 
能 态 ， 比 如 每 线程 一 套 的 线程 上 下 文 寄存 器 等 。 

再 思考 一 个 问题 ， 执 行 了 MWAIT 的 逻辑 CPU， 
如 果 后 续 想 让 它 醒 过 来 执行 其 他 线程 的 话 怎么 办 呢 ? 
是 不 是 还 得 有 一 条 Wakeup 指 令 ? 问题 是 ， 这 个 逻辑 
CPU 已 经 被 静默 了 ， 它 不 会 去 取 指令 执行 ， 甚 至 连 时 
钟 中 断 都 不 会 响应 ， 什 么 都 听 不 见 了 ， 如 果 它 能 取 
指令 就 证 明 它 根本 没 睡 。 所 以 ， 需 要 一 种 强制 唤醒 
机 制 。 为 此 ，Intel CPU 是 这 样 设计 的 : 其 CPU 内 部 
增加 了 一 个 专门 用 于 监控 特定 内 存 地 址 写 入 动作 的 
硬件 电路 模块 ， 在 执行 MWAIT 指 令 之 前 ， 线 程 必须 
先 用 一 条 MONITOR 指 令 将 需要 监控 的 内 存 地 址 范围 
〈 放 在 寄存 器 中 作为 指令 的 操作 数 ) 告诉 这 个 电路 
模块 ， 比 如 “我 要 监控 内 存 地 址 0 一 127”， 然 后 再 
执行 MWAIT 指 令 让 CPU 睡觉 ， 当 然 ， 这 个 监控 电路 
模块 不 能 睡 ， 一 直 在 监控 地 址 0 一 127 字 节 是 否 有 人 
写 入 ,一 旦 有 人 写 入 ， 则 该 模块 将 强制 叫 醒 该 逻辑 
CPU 接 续 执 行 排 在 MWAIT 指 令 之 后 的 指令 。 在 其 他 
逻辑 CPU 上 运行 的 线程 调度 程序 (还 记得 线程 调度 器 
是 怎么 得 到 执行 机 会 的 么 ? CPU 被 时 钟 中 断 强 制 中 断 
之 后 可 以 进入 ， 或 者 其 他 正在 运行 的 线程 调用 它 ) 可 
以 将 “是 否 有 线程 需要 执行 ”的 信息 写 入 到 0 一 127 地 
址 中 的 某 处 ， 这 样 就 可 以 唤醒 之 前 被 睡眠 的 其 他 逻辑 
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CPU， 被 唤醒 的 CPU 继续 执行 MWAIT 之 后 的 指令 〈 比 
如 可 以 跳 转 到 线程 调度 器 执行 ， 从 而 调度 新 的 线程 到 
该 逻辑 CPU 执行 ) 。 

如 果 有 多 个 逻辑 CPU 都 在 睡觉 ， 它 们 都 被 设置 为 
监控 0 一 127 字 节 的 写 入 ， 那 么 这 些 逻 辑 CPU 都 会 被 唤 
醒 ， 各 自 继续 执行 MWAIT 的 下 一 条 代码 。 这 条 代码 依 
然 处 于 idle 线 程 内 ， 在 这 里 ，idle 线 程 调用 线程 调度 器 函 
数 ， 比 如 类 似 的 逻辑 idle 0 {MONITOR 0-127; MWAIT; 
Scheduler(0:}。 调 度 器 执行 时 ， 便 可 以 调度 其 他 线程 
到 该 逻辑 CPU 了 ， 或 者 继续 调度 idle 线 程 给 该 CPU。 

线程 调度 器 可 以 进一步 判断 ， 如 果 长 时 间 没 有 
多 余 的 线程 可 运行 ， 那 就 进入 深度 节能 状态 ， 比 如 向 
CPU 发 送 Halt 指 令 ， 直 接 关 闭 主要 模块 的 电源 (Power 
Gating) ， 而 不 是 只 将 时 钟 脱 挡 一 一 时 钟 脱 挡 只 是 让 
电子 不 再 拉锯 振荡 ， 但 是 半导体 管 中 依 然 会 有 漏电 流 
存在 ， 而 关闭 电源 之 后 ， 漏 电流 就 消失 了 ， 功 耗 进 一 
步 降 低 。 当 然 ， 每 个 逻辑 CPU 执行 Halt 时 也 只 是 关 掉 
自己 的 那 部 分 电路 ， 不 会 把 整个 物理 核心 都 关 掉 。 


6.1.4 乱 序 执行 还 是 SMT? 


乱 序 执行 纵使 可 以 尽量 让 流水 线 保持 忙碌 ， 但 是 
其 代价 是 功 耗 会 变 得 较 高 。 相 比 顺序 执行 〈In-Order) 
的 CPU 核心 而 言 ， 支 持 乱 序 执行 的 核心 又 被 称 为 乱 序 执 
行 (OutofOrder) 核心 。 乱 序 执行 核心 即使 在 单线 程 场 
景 下 也 可 以 较 好 地 利用 流水 线 资 源 ， 最 终结 果 是 单线 程 
执行 速度 较 快 。 而 有 了 超 线程 技术 之 后 ， 多 个 线程 的 指 
令 混 合 交织 ， 天 然 就 消除 了 RAW 相关 ， 就 算 不 重 排序 ， 
顺 着 执行 ， 流 水 线 资源 也 能 够 较 好 地 利用 。 那 么 ， 此 时 
是 不 是 可 以 抛弃 乱 序 执行 ， 而 重 归 顺序 执行 呢 ? 因为 顺 
序 执行 的 控制 部 件 简单 ， 功 耗 会 降低 不 少 。 

有 些 业界 的 学 者 对 顺序 执行 核心 +SMT 的 思路 
做 了 一 些 研究 和 仿真 ， 结 果 证 明 效 果 不 错 。 比 如 
Khubaib 团 队 设计 的 MorphCore〈 可 变 身 的 核心 ) 。 
他 们 发 现 ， 不 管 是 使 用 乱 序 执行 核心 还 是 顺序 执行 
核心 ， 在 线程 达到 8 个 的 时 候 ， 乱 序 和 顺序 执行 核 
心 达到 了 相同 的 单线 程 平均 性 能 。 如 图 6-3 所 示 ， 在 
单线 程 时 ， 顺 序 执行 核心 的 单线 程 性 能 显然 较 乱 序 
执行 核心 差 了 一 大 截 ; 但 是 随 着 线程 数量 的 增加 ， 
顺序 执行 核心 内 部 的 RAW 相关 越 来 越 少 ， 逐 渐 达 
到 了 与 乱 序 执 行 核心 相同 的 单线 程 平 均 性 能 。 
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图 6-3 ”顺序 和 乱 序 执行 内 核 性 能 对 比 
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为 了 同时 兼顾 单线 程 和 多 线程 ，MorphCore 的 核 
心 设 计 思 路 是 在 单线 程 运行 时 依然 采用 乱 序 执行 模 
式 ， 而 当 被 调度 的 线程 达到 了 一 定数 量 之 后 ， 自 动 切 
换 为 顺序 执行 模式 ， 这 就 是 其 “ 变 身 ”的 含义 。 模 式 
切换 时 对 包括 线程 调度 器 在 内 的 所 有 线程 保持 完全 
透明 。 线 程 调度 器 感知 到 的 永远 都 是 8 个 逻辑 CPU 核 
心 ， 当 线程 调度 器 分 配 了 1 或 者 2 个 线程 给 某 个 核心 时 
(向 该 核心 虚拟 的 8 个 逻辑 CPU 中 的 任意 1 或 者 2 个 逻辑 
CPU) ， 该 核心 采用 乱 序 执行 模式 ， 当 调度 的 线程 大 
于 2 个 时 ， 该 核心 自动 切换 为 顺序 执行 模式 。 只 要 线程 
调度 器 将 某 个 线程 写 入 了 线程 上 下 文 寄存 器 ， 而 且 这 
个 线程 没有 运行 MWAIT 指 令 ， 就 证 明 该 线程 不 是 idle 
线程 ， 而 是 用 户 线程 ， 电 路 是 可 以 识别 出 来 的 ， 如 果 
调度 器 将 某 个 线程 用 MWAIT 指 令 暂 停 了 ， 电 路 也 可 以 
检测 到 ， 从 而 知道 该 线程 被 静默 了 ， 当 运行 着 的 线程 
降低 到 2 个 及 以 下 时 ， 电 路 切换 到 乱 序 执行 模式 。 电 
路 的 切换 过 程 是 将 当前 所 有 运行 着 的 线程 的 上 下 文 寄 
存 器 数据 全 部 保存 到 RAM 中 某 处 固定 区 域 ， 然 后 内 部 
切换 各 个 MUX/DEMUX 路 径 ， 准 备 好 之 后 ， 再 将 之 前 
保存 的 上 下 文 重新 装 回电 路 中 ， 从 而 继续 执行 。 

在 顺序 执行 模式 下 ， 保 留 站 、 物 理 寄存 器 等 公 
用 部 件 会 被 切 分 为 多 份 ， 每 个 线程 一 份 ， 大 小 固 
定 ， 这 样 可 以 简化 硬件 设计 。MorphCore 的 流水 线 模 
块 分 了 两 套 ， 一 套 专 供 乱 序 执行 ， 另 一 套 则 用 于 顺序 
执行 ， 然 后 根据 当前 所 处 的 模式 ， 用 Mux 和 Demux 来 
选择 使 用 哪 一 套 电 路 来 执行 ， 利 用 门 控 时 钟 来 将 另 一 
套 电路 模块 时 钟 脱 挡 以 节能 。 当 然 ， 有 一 些 电 路 模块 
是 两 个 模式 公用 的 。 比 如 ， 取 指令 单元 的 架构 示意 图 
如 图 6-4 所 示 ， 可 以 看 到 8 个 线程 的 PC 寄存 器 被 输入 到 
一 个 MUX。 指 令 存 储 器 〈i-cache) 公用 一 份 ， 取 出 的 
指令 缓冲 则 是 每 个 线程 一 份 独立 的 。 
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6-4 MorphCore 中 的 取 指 令 单元 示意 图 


当然 ， 至 于 是 不 是 各 种 场景 下 该 理论 都 适用 ， 还 
需要 经 过 长 时 间 的 检验 。 


6.1.5 WERE? 


现在 的 商用 CPU 的 核心 数量 越 来 越 多 ， 要 想 发 挥 
出 多 核心 的 并 发 性 ， 就 得 在 程序 设计 上 考虑 尽量 切 分 
为 多 个 线程 ， 而 且 还 得 保证 每 个 线程 都 得 有 活 干 ， 而 


不 是 滥 午 充 数 ， 因 为 线程 是 可 以 主动 让 出 CPU 的 (本 
章 其 他 节 会 详细 介绍 线程 的 各 种 状态 和 运行 机 制 ) 。 
如 果 有 太 多 不 于 活 的 线程 和 少数 累 到 死 的 线程 ， 多 核心 
的 性 能 就 得 不 到 提升 。 但 是 有 些 程序 的 确 难以 切 分 为 多 
线程 ， 其 本 身 就 是 没有 并 发 性 的 ， 对 于 这 种 程序 ， 单 核 
心 的 性 能 就 非常 关键 了 。 但 是 提升 单 核心 的 性 能 ， 势 必 
会 占用 更 多 的 硬件 资源 ， 在 相同 面积 的 芯片 上 ， 核 心 数 
量 也 就 做 不 上 去 ， 不 利于 多 线程 程序 。 为 了 兼顾 这 两 种 
场景 ， 人 们 提出 了 一 种 设想 : CPU 能 否 做 到 动态 适 配 ， 
在 运行 多 线程 场景 时 ， 采 用 每 个 核心 运行 一 个 线程 的 方 
式 ， 而 当 运 行 单线 程 时 ， 大 量 的 核心 是 否 可 以 同时 运 
行 该 单个 线程 中 的 不 同 部 分 ， 然 后 将 结果 汇总 提交 ? 
这 个 突 发 奇想 被 称 为 道 超 线程 ， 或 者 核心 融合 〈core 
fusion) ， 其 基本 思想 也 是 动态 地 适 配 应 用 场景 。 

逆 超 线程 与 执行 调度 部 件 调度 同一 个 线程 中 无 关 
联 的 指令 同时 并 行 载 入 多 个 执行 部 件 并 行 执行 并 无 本 
质 区 别 ， 只 不 过 此 时 不 但 要 将 代码 调度 到 同一 个 核心 
的 多 个 执行 部 件 ， 还 要 调度 到 不 同 核心 的 执行 部 件 。 
可 想 而 知 ， 不 同 的 核心 相隔 得 实在 是 太 远 了 ， 它 们 连 
L1 缓 存 都 不 共享 ， 这 么 做 势必 难度 很 大 。 试 想 一 种 
设计 思路 : 多 个 核心 的 取 指令 单元 预先 定义 好 ， 核 心 
1 从 该 线程 的 第 1 条 指令 开始 ， 取 8 条 指令 执行 ， 然 后 
核心 2 取 从 第 9 条 指令 开始 的 8 条 指令 载 入 执行 ， 以 此 
类 推 。 假 设 共 4 个 核心 ， 每 核心 取 8 条 指令 执行 ， 大 家 
各 自 执行 ， 但 是 结果 必须 提交 到 一 个 统一 的 Reorder 
Buffer 以 供 判 断 哪个 核心 上 的 哪 条 指令 依赖 哪个 核心 
上 哪 条 指令 的 结果 ， 也 就 是 跨 核心 RAW 相关 。 还 有 ， 
假设 核心 1 执行 了 指令 Add i 1 AB (将 1 和 寄存 器 A 
中 的 数据 相 加 写 入 寄存 器 B) ， 而 核心 2 执行 了 指令 
Add iBAC， 那 么 此 时 ， 核 心 1 必须 将 寄存 器 B 中 的 结 
果 传 送 给 核心 2。 如 果 是 在 同一 个 核心 内 部 出 现 这 种 
RAW 相关 ， 则 可 以 采用 前 递 方式 节省 一 个 时 钟 周期 ， 
但 是 跨 核心 前 递 就 不 太 好 实现 了 。 目 前 在 一 些 论文 中 
普遍 采用 单独 的 硬件 模块 来 将 两 个 核心 中 的 资源 做 整 
合 ， 比 如 各 种 buffer、Register File， 当 逆 超 线程 模式 
开启 时 ， 这 些 硬件 模块 将 所 有 资源 全 局 统一 地 管理 和 
分 配 。 现 阶段 要 想 实现 逆 超 线程 ， 在 工程 化 设计 上 还 
比较 难 ， 实 际 使 用 效果 上 暂时 还 体现 不 出 绝对 优势 。 


6.1.6 ”线程 与 进程 


现在 回来 思考 一 个 问题 。 我 们 在 上 一 章 中 提 到 
过 ， 可 以 把 音乐 播放 器 这 个 大 程序 拆 分 成 多 个 小 线 
程 ， 各 自 独立 运行 。 比 如 其 中 的 三 个 线程 : 从 磁盘 读 
出 音频 文件 放 到 内 存 、 对 音频 文件 进行 解码 、 将 解码 
后 的 数据 发 送 给 声卡 进行 发 声 。 在 上 一 章 中 我 们 也 描 
述 过 ， 为 了 防止 程序 之 间 的 相互 影响 ， 我 们 将 物理 内 
存 虚拟 成 了 多 个 独立 的 地 址 空间 ， 然 后 用 页 表 来 追踪 
每 个 线程 的 虚拟 地 址 到 物理 地 址 的 映射 ， 把 每 个 程序 
关 在 了 单子 里 运行 。 既 然 如 此 ， 上 述 的 读数 据 线程 读 


出 的 数据 ， 又 怎么 会 被 解码 线程 看 到 呢 ? 

显然 ， 这 套 机 制 需要 改 ， 改 成 这 样 : 让 需要 相互 
传递 数据 的 多 个 线程 运行 在 同一 个 虚拟 地 址 空间 中 ， 
运行 在 同一 个 单子 里 就 可 以 解决 了 ， 但 是 这 些 线程 之 
间 会 相互 受到 各 自 bug 的 影响 。 人 们 把 运行 在 同一 个 
地 址 空间 中 的 所 有 线程 称 为 一 个 进程 (Process) ， 比 
如 上 述 的 音乐 播放 器 整体 上 可 以 被 设计 为 一 个 进程 ， 
在 进程 中 包含 多 个 线程 。 每 个 进程 有 各 自 独立 的 虚拟 
地 址 空间 ， 进 程 中 的 所 有 线程 共享 同一 个 虚拟 地 址 空 
间 。 图 6-5 为 一 个 假想 中 的 多 线程 进程 在 虚拟 内 存 地 
址 空间 中 的 布局 示意 图 ， 实 际 中 不 同 的 设计 各 有 不 同 
考虑 。 
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图 6-5 多 线程 示意 图 
那么 ， 多 线程 程序 是 怎么 被 系统 运行 起 来 的 呢 ? 
可 能 会 很 自然 地 想到 这 种 设计 思路 : 在 ELF/PE 格 式 可 
执行 文件 的 头 部 增加 一 个 针对 多 线程 的 特殊 控制 字段 ， 
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用 于 描述 该 可 执行 文件 内 部 共有 多 少 个 执行 线路 ， 以 及 
每 个 线路 的 入 口 函数 记 在 的 偏 移 量 和 参数 ， 装 载 器 可 以 
根据 这 些 信息 直接 将 这 些 线程 载 入 到 同一 个 或 者 不 同 的 
CPU 核心 上 运行 。 这 样 会 非常 不 灵活 ， 比 如 很 多 场景 需 
要 根据 程序 运行 之 后 的 各 种 条 件 动态 创建 线程 ， 如 某 个 
网 络 服务 程序 ， 根 据 网 络 访问 量 动态 地 创建 越 来 越 多 的 
线程 ， 有 些 场景 则 需要 动态 地 从 网 络 、 键 盘 等 输入 渠道 
来 获取 线程 入 口 函数 的 参数 ， 然 后 传递 给 线程 入 口 函 
数 。 而 上 述 这 些 动态 的 条 件 ， 在 程序 编写 的 时 候 是 根本 
无 法 获知 的 ， 所 以 将 线程 数量 和 参数 写 死 在 可 执行 文件 
中 理论 上 是 可 行 的 ， 但 是 却 没有 现实 意义 。 

实际 中 ， 程 序 在 运行 的 时 候 可 以 自行 创建 新 的 执 
行 线路 然后 立即 被 调度 执行 ， 但 是 由 于 创建 新 线程 势 
必要 更 新 底层 的 线程 调度 管理 方面 的 各 种 系统 表 ， 上 
一 章 中 提 到 过 ， 对 这 些 系统 级 关键 数据 结构 的 管理 和 
更 新 必须 由 内 核 级 程序 来 负责 ， 这 些 内 核 级 程序 通过 
系统 调用 的 方式 来 被 调用 。 所 以 为 了 方便 统一 起 见 ， 
可 以 将 这 些 底 层 的 调用 封装 起 来 ， 形 成 更 加 易 用 的 
创建 和 管理 线程 的 函数 ， 比 如 起 名 为 create_thread () 
函数 。 对 于 线程 管理 和 调度 方面 会 在 后 续 章节 中 详细 
介绍 。 


6.1.7 多 核心 访 存 基本 拓扑 


所 谓 “CPU 核 心 ”， 我 想 本 书 进行 到 这 一 步 ， 
也 该 给 大 家 一 幅 全 景 图 了 。 在 第 2 章 中 ， 我 们 介绍 了 
一 个 简易 CPU 的 基本 组 成 模块 : 取 指令 单元 、 译 码 单 
元 、 运 算 单 元 等 驱动 着 数据 向 前 流动 同时 做 运算 的 部 
件 ， 以 及 主 内 存 、 指 令 存 储 器 、 数 据 存储 器 、 数 据 寄 
存 器 等 存储 / 暂 存 数据 的 地 方 。 到 了 第 4 章 ， 我 们 又 向 
大 家 介绍 了 流水 线 以 及 额外 追加 的 更 加 复杂 的 控制 
部 件 ， 包 括 : 流水 线 阻塞 控制 单元 、 分 支 预 测控 制 
单元 、 寄 存 器 重 命名 控制 单元 、 结 果 侦 听 单元 、 发 
射 控制 单元 、 提 交 控 制 单元 ， 以 及 内 部 私有 的 物理 
寄存 器 、 流 水 线 中 间 寄 存 器 /队列 、BTB/BHT/PHT、 
RAT、 保 留 站 、ROB 等 用 于 存储 流水 线 运行 时 关键 的 
映射 表 、 控 制 位 等 的 特殊 内 部 存储 器 。 上 一 章 结尾 介 
绍 了 中 断 处 理 模块 、 虚 拟 内 存 管理 模块 MMU; ЖЕ 
上 一 节 又 向 大 家 介绍 了 超 线程 控制 相关 模块 、 节 能 控 
制 模块 。 一 个 CPU 核心 所 包含 的 主要 模块 除了 上 述 这 
些 部 件 之 外 ， 还 要 把 缓存 及 其 控制 模块 也 算 进 去 。 最 
终 我 们 将 核心 抽象 为 如 图 6-6 所 示 的 样子 ， 当 然 ， 实 
际 的 CPU 核心 中 还 包含 更 多 其 他 模块 ， 随 着 本 书 的 逐 
步 讲 解 ， 你 会 逐渐 了 解 到 ， 比 如 图 中 所 示 的 页 表 项 组 
存 (Translation Lookaside Buffer，TLB) ， 其 作用 为 
缓存 MMU 查 询 过 的 页 表 项 ， 从 而 加 速 虚拟 -物理 地 址 
的 转换 过 程 。 

图 中 桥 色 导线 表示 控制 信号 ， 比 如 告诉 对 方 读 还 
是 写 ， 以 及 其 他 各 种 用 于 传输 控制 、 状 态 等 的 信号 ; 
蓝 色 导线 表示 地 址 信号 ， 用 于 告诉 对 方 读 / 写 的 是 哪个 
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地 址 上 的 数据 ， 绿色 导线 表示 数据 信号 ， 用 于 向 对 方 
传送 /从 对 方 接收 对 应 地 址 上 的 数据 。 

所 以 ， 每 个 模块 之 间 的 各 种 导线 可 以 归 成 控制 、 
地 址 、 数 据 这 三 大 类 信号 。 每 一 类 信号 的 导线 又 可 以 
有 多 根 ， 比 如 地 址 信号 导线 有 32 根 (32 位 宽 ) ， 则 一 
共 可 以 表示 2” 个 地 址 ， 如 果 每 个 地 址 上 存储 一 字 节 数 
据 ， 那 么 这 32 位 的 地 址 空间 中 可 容纳 4G 字 节 的 数据 。 
控制 信号 的 根 数 则 由 需要 多 少 种 控制 信号 而 定 ; 数据 
导线 的 位 宽 如 果 是 64 位 ， 则 每 个 时 钟 周期 可 以 最 大 传 
输 8 字 节 数据 (通过 给 出 一 个 起 始 地 址 ， 再 给 出 一 个 
要 读 取 数 据 的 长 度 控制 信号 来 实现 ) 。 

取 指 令 单元 只 会 读 入 数据 ， 其 发 出 的 读 请 求 信 
号 会 被 MMU 发 送 给 一 级 指令 缓存 控制 器 ， 指 令 缓存 
控制 器 的 处 理 罗 辑 比较 简单 ， 就 是 不 断 地 从 二 级 缓存 
中 预 读 入 当前 正在 执行 的 地 址 的 后 续 地 址 上 的 内 容 即 
可 ， 因 为 指令 总 是 顺 着 读 取 执行 的 。 当 然 ， 当 发 生 跳 


~ 


Load/Stor 


转 的 时 候 ， 之 前 被 读 入 的 内 容 可 能 就 会 被 作废 。 而 
Load/Stor 单 元 〈 或 简称 L/S 单 元 ) 既 读 又 写 ， 对 于 Stor 
指令 ， 其 存 入 的 数据 会 被 存 入 Stor Queue (或 者 叫 Stor 
Buffer) 中 排队 ， 然 后 异步 写 入 到 一 级 数据 缓存 中 。 
往 一 级 数据 缓存 中 写 入 数据 的 过 程 还 稍 有 些 复 杂 ， 后 
文中 会 有 描述 。 使 用 Stor Queue 相 当 于 在 L/S 单 元 与 一 
级 缓存 之 间 又 增加 了 一 层 缓冲 ，Stor 指 令 存 入 的 数据 
写 入 了 Stor Queue， 就 被 视 作 写 入 完成 。 

图 6-6 中 可 以 看 到 一 级 缓存 (L1 Сасе), URZ 
级 缓存 (12 Cache) 。 实 际 中 可 以 有 多 层 缓存 ， 比 如 
L3、L4。 目 前 Intel 的 Xeon CPU 有 3 级 缓存 ， 其 中 L1 缓 
存 和 L2 缓 存 是 每 个 核心 私有 的 ，L3 缓 存 则 是 所 有 核心 
共享 的 ， 详 情 待 本 章 后 面 介绍 。 

各 个 控制 器 的 运行 频率 可 能 不 同 ， 有 快 有 慢 ， 它 
们 之 间 采 用 异步 FIFO 等 方式 来 接收 和 发 送 请 求 。 发 送 
方 将 地 址 、 控 制 、 数 据 信 号 放置 到 导线 上 ， 接 收 端 进 
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行 异 步 采 样 ， 将 对 应 的 信号 锁 存 到 接收 方 寄存 器 中 ， 
然后 处 理 该 请 求 ， 并 返回 对 应 的 状态 信号 给 发 送 方 。 

如 图 6-7 所 示 ， 左 图 是 曾经 在 第 3 章 中 给 出 的 ， 如 
果 当 时 你 还 没有 更 加 感性 地 理解 图 中 的 这 些 方 方 块 块 
的 东西 是 什么 的 话 ， 那 么 和 右 图 对 比 一 下 可 能 会 更 有 
感觉 。 当 然 ， 右 图 中 的 模块 只 是 示意 图 ， 实 际 中 会 细 
分 成 更 加 密密麻麻 的 小 块 。 

那么 ， 这 个 核心 与 其 他 核心 之 间 ， 以 及 与 SDRAM 
大 容量 主 存储 器 之 间 ， 又 是 怎么 连接 起 来 的 呢 ? 首先 
思考 一 个 问题 : 多 个 核心 之 间 并 无 关联 ， 既 然 它们 是 
各 干 各 的 ， 就 没有 必要 相互 连接 起 来 啊 。 (实际 上 是 
需要 的 ， 在 本 章 后 面 你 会 知道 ， 由 于 缓存 的 存在 ， 多 
个 核心 之 间 的 缓存 需要 实时 同步 ， 必 须 以 超 高 速度 交 
换 信息 。) 

但 是 多 个 核心 都 需要 从 SDRAM 中 来 取 数 据 进行 
处 理 ， 那 么 它们 就 都 需要 连接 到 SDRAM 控 制 器 上 ， 
对 应 的 拓扑 如 图 6-8 所 示 。 如 果 给 每 个 核心 单独 连接 
一 份 SDRAM， 这 样 的 话 就 相当 于 多 个 独立 的 计算 机 
了 ， 这 些 核心 之 间 也 就 不 共享 SDRAM 内 存 〈 各 自 拥 
有 各 自 的 独立 地 址 空间 ) 。 在 前 文中 也 说 过 ， 人 们 更 
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加 希望 的 是 单 台 可 以 同时 运行 多 个 线程 /进程 的 计算 
机 。 另 外 ， 对 于 一 个 进程 ， 其 运行 时 可 能 会 创建 多 个 
线程 ， 运 行 在 多 个 不 同 核心 上 ， 而 该 进程 对 应 的 可 执 
行文 件 的 代码 、 数 据 是 被 载 入 到 同一 个 地 址 空间 中 
的 ， 如 果 用 多 台独 立 的 机 器 来 运行 同一 个 进程 ， 运 作 
起 来 就 比较 复杂 (并 不 是 不 可 以 ， 比 如 本 书后 面 章节 
中 介绍 的 超 算 场 景 就 是 这 样 的 ) 。 所 以 ， 多 核心 共享 
内 存 是 一 个 基本 期 望 。 

假设 某 个 CPU 有 4 个 核心 ， 那 么 可 以 设计 一 个 有 
4 个 读 写 通道 的 SDRAM 控 制 器 。 在 第 3 章 中 大 家 可 以 
看 到 SDRAM 控 制 器 内 部 的 架构 ， 如 果 做 上 4 套 读 写 
接口 ， 成 本 将 会 比较 高 ， 但 不 是 不 可 以 。 最 早 的 时 
候 ， 人 们 采用 了 共享 总 线 的 形式 来 将 多 个 核心 连接 到 
SDRAM 控 制 器 ， 如 图 6-9 所 示 。 

图 6-10 所 示 的 是 另 一 种 核心 、 缓 存 、SDRAM 
的 互联 拓扑 。 可 以 看 到 ， 相 比 图 6-8 中 所 示 的 拓扑 而 
言 ， 其 多 了 一 个 多 核心 全 局 共享 的 L3 混 合 缓存 ， 如 果 
没有 命中 L3 缓 存 ， 则 由 L3 缓 存 控制 器 向 SDRAM 控 制 
器 发 起 数据 读 写 请 求 。 另 外 还 可 以 看 到 ，L3 缓 存 控制 
器 、SDRAM 控 制 器 、IO 桥 使 用 了 一 套 单独 的 总 线 互 


6-8 ”CPU 核心 与 SDRAM 的 连接 示意 图 
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6-10 另 一 种 核心 、 缓 存 、SDRAM 的 互联 拓扑 
相连 接 。 


图 中 的 这 些 模 块 ， 可 以 全 部 被 集成 到 一 个 芯片 
中 (System On Сыр, SoC) ， 也 可 以 把 所 有 的 核心 
部 分 集成 到 一 个 芯片 中 ,而 内 存 控制 器 、L/O 桥 单独 
采用 对 应 的 芯片 。 第 3 章 中 大 家 也 看 到 了 ， 在 早期 
的 时 候 ， 连 有 些 核心 内 部 的 模块 都 是 独立 的 芯片 ， 
芯片 之 间 通 过 电路 板 上 的 导线 连接 起 来 。 随 着 芯片 
制作 工艺 的 不 断 提升 ， 集 成 度 越 来 越 高 ， 比 如 目前 
的 智能 手机 ， 基 本 上 一 块 芯片 就 搞定 一 切 了 。 


可 以 看 到 ， 上 述 这 些 模块 其 实 并 不 拘泥 于 连接 
方式 ， 只 要 有 模块 能 够 响应 CPU 核心 发 出 的 对 某 地 
址 的 数据 读 写 请 求 即 可 ， 至 于 响应 请 求 的 模块 如 何 
获取 对 应 的 数据 ， 完 全 可 以 从 任何 地 点 、 以 任何 方 
式 获取 。 比 如 上 一 章 介绍 的 虚拟 内 存 ， 分 页 内 存 管 
理 模块 竟然 可 以 其 骗取 指令 单元 和 L/S 单 元 到 那 种 
程度 ， 并 且 用 那么 复杂 和 夸张 的 方式 。 另 外 可 以 看 
到 ，CPU 内 部 其 实 是 一 张 复杂 的 互联 网 络 ， 数 据 从 
硬盘 上 被 读 出 ， 最 终 流 入 到 CPU 核心 里 的 ALU 进 行 


运算 ， 这 条 路 上 充满 了 各 种 模块 ， 数 据 被 一 层 层 倒 
手 ， 通 过 各 种 不 同 的 总 线 一 层 层 传输 。 之 所 以 摘出 
这 么 多 模块 和 层次 ， 除 了 一 些 功能 上 的 需求 ， 比 如 
虚拟 -物理 地 址 转换 、 流 水 线 优 化 等 不 得 不 做 的 处 理 
之 外 ， 还 因为 成 本 和 芯片 面积 、 功 耗 的 问题 。 如 果 
所 有 数据 都 放 在 寄存 器 中 ， 皆 大 欢喜 。 寄 存 器 (Ж 
ЖЕ) 占 电 路 面积 太 大 ， 不 够 用 了 ， 就 得 挪 到 成 本 
低 一 些 、 存 储 密度 高 一 些 的 SRAM 缓 存 中 ; LIAA 
与 核心 运行 在 相同 的 频率 ， 对 电路 设计 要 求 高 ， 功 
耗 也 高 ， 做 不 了 太 大 ， 那 就 降低 频率 增加 容量 成 为 
12 缓存 ， 然 后 再 往 下 就 是 L3 缓 存 ， 其 至 有 些 设计 都 
到 L4 缓 存 了 ; SRAM 不 够 用 ， 就 挪 到 成 本 更 低 、 存 
储 密度 更 高 的 SDRAM 中 ， 再 不 够 就 往 硬盘 里 挪 ; 
硬盘 又 有 基于 NAND Flash 的 、 性 能 较 高 的 固态 硬 
盘 ， 以 及 性 能 较 差 的 机 械 硬 盘 ， 而 机 械 硬 盘 里 又 有 
传统 垂直 记录 硬盘 以 及 容量 更 大 性 能 较 差 的 SMR. 
瓦 片 式 磁 记 录 硬 盘 ( 第 11 章 会 详细 介绍 机 械 磁 盘 的 
原理 ) 。 这 就 是 存储 器 的 层级 。 其 中 ， 寄 存 器 可 以 
直接 在 指令 中 访问 ， 缓 存 对 程序 透明 ， 不 可 直接 访 
问 ， 只 能 由 硬件 在 后 台 自 行 访问 ; SDRAM 可 以 直 
接 用 指令 来 寻 址 访问 ， 外 部 IO 设备 控制 器 的 寄存 器 
可 以 直接 用 指令 寻 址 访问 。 硬 盘 中 的 内 容 不 可 被 直 
接 寻 址 访问 ， 访 问 硬盘 中 的 内 容 时 程序 必须 先 将 硬 
盘 所 能 够 识别 的 指令 ( 比如 SCSIATA/NVMe 指 令 ， 
注意 ， 这 些 指 令 并 非 CPU 所 执行 的 底层 汇编 机 器 指 
+, 而 是 硬盘 里 的 程序 需要 解析 指令 的 上 层 指 令 ， 
其 中 包含 很 多 信息 ， 比 如 要 读 写 的 起 始 扇 区 号 、 长 
度 ， 以 及 设备 ID、 返 回 数 据 应 该 写 入 到 SDRAM 的 
位 置 等 ) 在 SDRAM 中 准备 好 ， 然 后 将 这 条 指令 本 
身 写 入 到 硬盘 控制 器 的 寄存 器 中 (这 一 步 是 用 直接 
寻 址 ， 比 如 使 用 Stor 指 令 方式 写 入 的 ) ， 硬 盘 控 制 
器 再 根据 指令 中 的 描述 执行 该 指令 ， 读 写 盘 片 中 
的 内 容 ， 并 将 内 容 直接 写 入 到 SDRAM 中 的 对 应 位 
置 ，SDRAM 并 不 只 有 CPU 核心 才能 访问 ，IO 控 制 
器 也 可 以 直接 访问 。 第 7 章 会 详细 介绍 IO。 


REQ 
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和 总线 可 以 是 并 行 的 ， 也 可 以 是 串 行 的 ， 比 如 图 
6-10 中 的 蓝 色 地 址 线 ， 如 果 是 32 位 地 址 ， 那 么 可 以 并 
排 32 根 线 ， 在 一 个 时 钟 周期 就 可 以 同时 放置 32 位 的 信 
号 让 接收 方 一 次 收 到 。 而 串 行 总 线 可 以 只 用 一 根 导 线 
来 传 数据 ， 每 个 时 钟 周 期 只 放置 一 个 位 ， 但 是 时 钟 频 
率 可 以 达到 几 十 吉 赫 兹 (GHz) ， 每 秒 可 以 传递 几 十 
吉 位 〈Gbit) 的 数据 ， 一 样 可 以 达到 比较 快 的 速度 。 
发 送 方 和 接收 方 需要 配备 SERDES ( 见 第 1 章 1.5.11 节 
或 者 第 3 章 的 图 3-34 下 方 的 描述 ) ， 来 将 接收 到 的 位 
依次 排 布 到 接收 端 寄存 器 中 。 并 行 总 线 无 法 达到 太 高 
的 时 钟 频率 ， 因 为 多 根 导 线 在 传递 信号 的 时 候 可 能 会 
不 同步 ， 有些 线 信号 先 到 ， 有 些 则 落后 ， 这 被 称 为 时 
钟 偏 斜 (clock skew) 。 另 外 ， 并 行 这 么 多 根 线路 ， 
流动 的 电子 产生 磁场 ， 线 路 之 间 会 有 串扰 问题 ， 互 相 
干扰 ， 而 这 种 干扰 在 频率 高 到 一 定 值 后 就 无 法 解决 。 

总 线 可 以 让 多 个 节点 共享 同一 套 读 写 接口 来 读 
写 SDRAM， 当 然 ， 不 允许 多 个 节点 同时 〈 指 同一 时 
刻 ， 而 不 是 同一 段 时 间 ) 从 总 线 上 读 写 数据 。 数 字 信 
号 不 同 于 模拟 信号 ， 在 同一 介质 中 传递 多 路 信号 ， 模 
拟 信号 可 以 采用 不 同 频段 ， 然 后 滤波 得 到 各 波段 的 信 
号 ;而 数字 信号 相互 登 加 之 后 ， 是 无 法 再 解析 出 来 
的 。 图 6-10 中 可 以 清晰 地 看 到 ， 总 线 其 实 就 是 并 联 起 
来 的 一 堆 导 线 ，1 位 宽 的 总 线 其 本 质 上 就 是 一 根 伸 出 
了 多 个 触角 的 导线 ， 多 个 节点 共同 搭 到 这 根 线 的 多 个 
触角 上 来 感受 和 传递 信号 ， 大 家 必须 在 一 段 时 间 内 轮 
流 地 、 独 占 地 使 用 总 线 ， 所 以 ， 需 要 一 个 仲裁 机 制 。 

如 图 6-11 所 示 ， 每 个 共享 总 线 必 须 配 备 一 个 仲裁 
器 ， 该 仲裁 器 的 输入 信和 号 为 各 个 节点 的 要 求 使 用 总 线 
的 请 求 信号 (REQ, Request) ， 输 出 信号 则 是 向 各 个 
节点 输送 的 授权 信号 (GNT, Grant) 。 每 当 某 个 节点 
需要 使 用 总 线 ， 就 将 REQ 信 和 号 抬 高 或 拉 低 ， 如 果 有 多 
个 节点 同时 抬 高 / 拉 低 REQ 信 号 ， 则 仲裁 电路 中 的 逻辑 
就 会 根据 策略 来 选择 某 个 节点 ， 然 后 将 总 线 使 用 权 授 
权 给 它 〈 抬 高 / 拉 低 GNT 信 号 ) 。 每 次 只 能 授权 一 个 节 
点 ， 至 于 仲裁 策略 ， 在 第 1 章 中 已 经 有 所 介绍 ， 不 再 更 
述 。 关 于 总 线 的 更 详细 内 容 ， 请 阅读 本 书后 续 章 节 。 


节点 


图 6-11 ”总线 仲裁 示意 图 
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6.2 ”缓存 十 九 式 


在 前 面 已 经 多 次 提 到 了 缓存 。 在 第 2 章 图 2-16 的 
简易 CPU 设计 示意 图 中 ， 取 指令 单元 直接 从 “指令 存 
储 器 ”中 读 出 指令 ， 直 接 就 输送 到 内 部 的 暂 存 器 ， 然 
后 再 直接 输送 给 指令 译 码 单元 了 。 而 在 图 2-34 的 示意 
图 中 加 入 了 L1 和 L2 缓 在。 其 实 ， 如 果 让 取 指令 单元 直 
接 从 SDRAM 中 读 指令 也 是 没 问题 的 ， 但 是 SDRAM 控 
制 器 以 及 SDRAM 存 储 芯 片 〈 俗 称 内 存 颗粒 ) 本 身 的 
运行 频率 远 低 于 CPU 核 心 可 以 达到 的 运行 频率 ， 喂 不 
饱 CPU 核 心 ， 产 生 了 所 谓 的 “存储 器 墙 ” 问 题 ， 存 储 
器 成 为 瓶颈 。 所 以 需要 在 SDRAM 前 方 靠近 CPU 核 心 
的 地 方 放置 速度 更 高 的 存储 器 ， 比 如 第 3 章 中 介绍 过 
的 SRAM， 但 是 SRAM 存 储 每 个 位 需要 多 个 (典型 设 
计 下 是 6 个 ) 半导体 开关 ， 占 的 面积 大 ， 所 以 在 可 接 
受 成 本 下 无 法 做 到 太 高 容量 。 


6.2.1 缓存 是 分 级 的 


另外 一 个 考虑 则 是 容量 太 大 的 话 ， 当 核心 访问 
某 个 地 址 的 时 候 ， 缓 存 控制 器 在 缓存 中 搜索 该 数据 是 
否 已 经 位 于 缓存 时 的 速度 会 变 慢 ， 需 要 经 过 数 个 甚至 
数 十 上 百 个 核心 时 钟 周期 。 所 以 也 不 能 做 的 太 大 。 所 
以 人 们 决定 使 用 分 级 搜索 的 方式 ， 将 缓存 分 成 多 个 层 
级 : L1 容 量 最 小 ， 电 路 规模 小 ， 运 行 频率 就 可 以 更 
高 ， 搜 索 起 来 最 快 ， 只 需要 几 个 核心 时 钟 周期 即 可 ， 
然后 是 L2、L3 等 ， 以 及 最 后 一 级 缓存 (Last Level 
Cache, LLC) ， 目 前 主流 产品 的 LLC 一 般 就 是 L3， 
有 少量 商用 CPU 的 LLC 是 L4 缓 存 。 这 些 缓存 层级 一 级 
比 一 级 容量 大 ， 搜 索 速度 逐渐 减 慢 ， 可 能 会 达到 十 几 
或 者 上 百 个 CPU 核心 时 钟 周期 。 


这 里 一 定 要 深刻 理解 ， 比 如 “ 某 某 CPU 的 L2 缓 
存 的 访问 时 延 是 16 个 时 钟 周期 ”， 这 句 话 里 的 时 钟 
周期 指 的 是 CPU 核心 的 周期 ， 而 并 不 是 L2 缓 存 自 身 
的 运行 时 钟 周期 。 一 般 来 讲 ， 只 有 L1 缓 存 与 核心 运 
行 在 相同 的 时 钟 频率 下 ， 而 L2 及 后 续 的 存储 部 件 都 
运行 在 低 于 核心 频率 下 。 所 以 ， 对 于 L2 缓 存 本 身 来 
讲 ， 收 到 一 个 访 存 请 求 可 能 也 会 在 几 个 周期 (L26 
身 运行 的 时 钟 周期 ) 内 输出 结果 ， 但 是 L2 的 一 个 时 
钟 周期 相当 于 核心 的 多 个 时 钟 周 期 。 但 是 这 并 不 意 
味 着 L2 缓 存 和 L1 缓 存 之 间 需 要 跨 时 钟 域 传递 数据 ， 
因为 它 俩 的 时 钟 频率 是 同 相 位 的 ， 只 是 不 同 频 率 。 
在 访 存 请 求 发 出 之 后 的 期 间 内 ， 如 果 假 设 核 心 内 部 
的 流水 线 由 于 该 访 存 请 求 而 不 得 不 阻塞 ， 那 么 核心 
将 空转 这 16 个 时 钟 周期 。 


数据 在 这 些 缓存 层级 之 间 并 不 是 定 死 的 ， 而 是 
随 着 访问 流动 的 ， 核 心 访问 某 个 地 址 时 如 果 不 命中 


(Cache miss) L1 缓 存 的 话 ，L1 缓 存 控制 器 会 从 后 续 

层级 的 缓存 中 将 该 地 址 对 应 的 数据 读 入 到 L1 缓 存 中 。 
程序 的 访 存 行为 具有 了 时间 局 部 性 ， 也 就 是 说 上 一 次 访 
问 了 该 数据 ， 下 一 次 很 大 程度 上 还 会 继续 访问 ， 同 
时 还 具有 空间 局 部 性 ， 也 就 是 如 果 访 问 地 址 A 上 的 数 
据 ， 那 么 很 有 可 能 下 一 次 会 访问 地 址 A 土 I 上 的 数据 ， 
也 就 是 地 址 A 附近 地 址 的 数据 。 有 了 这 两 个 前 提 ， 分 
层 缓存 会 很 有 效 地 发 挥 作用 。 对 于 时 间 局 部 性 ， 小 容 
量 高 速度 的 L1 缓 存 的 命中 率 (Hit Rate) 可 以 保持 在 
很 高 的 级 别 ， 比 如 95% 以 上 ; 对 于 空间 局 部 性 ， 缓 存 
控制 器 可 以 采用 预 读 的 方式 ， 一 次 性 从 下 级 缓存 中 提 
取 比 核心 发 出 的 访问 请 求 更 多 的 数据 上 来 ， 比 如 核心 
访问 地 址 A，L1 控 制 器 可 以 从 L2 缓 存 中 提取 地 址 A、 
A+1、A+2 等 连续 地 址 的 内 容 ， 每 个 时 钟 周期 能 够 提 
取 的 数据 取决 于 两 级 缓存 之 间 的 总 线 位 宽 ， 比 如 位 宽 
为 128 位 ， 则 每 次 可 以 提取 16 字 节 的 数据 ， 纵 使 核心 
可 能 只 要 求 访问 8 字 节 。 


本 书 前 文中 曾经 提 到 过 队列 、 缓 冲 (buffer ) 。 
那么 缓存 与 这 两 个 概念 之 间 的 联系 和 区 别 是 怎样 的 
A? 这 三 个 名 词 其 实 描述 的 是 三 种 功能 。 纵 观 本 书 
前 文 可 以 体会 到 ,缓冲 是 一 个 临时 存放 数据 的 场 
Fr, 突出“ 临时”， 也 就 是 说 缓冲 中 的 数据 将 会 很 
快 被 取 走 ， 又 有 新 的 数据 进来 ， 它 充当 润滑 剂 、 缓 
冲 棉 的 作用 ， 匹 配 发 送 方 和 接收 方 的 速度 差异 。 
而 队列 是 缓冲 的 一 种 最 小 实现 形式 ， 是 一 个 微型 缓 
冲 。 缓 存 的 作用 是 为 了 提升 命中 率 ， 有 些 经 常 访 问 
的 数据 甚至 可 能 会 一 直 待 在 缓存 中 不 动 ， 所 以 与 组 
存 配套 的 可 以 有 预 读 、 新 老 数据 替换 等 概念 。 缓 存 
是 一 个 主动 优化 性 能 的 手段 ， 缓 冲 则 不 是 ， 虽 然 组 
冲 的 存在 事实 上 也 优化 了 性 能 ， 但 它 只 是 被 动 地 优 
化 ， 并 没有 主动 成 分 。 


由 于 缓存 的 英文 Cache 的 发 音 与 cash 相 同 ， 所 以 在 
一 些 图 示 中 经 常用 美元 符号 $ 来 表示 缓存 ， 比 如 “L1 
$$$”。 由 于 缓存 很 珍贵 ， 容 量 很 小 ， 很 关键 ， 很 管 
用 ， 见 效 快 ， 所 以 符号 $ 可 谓 是 一 语 双关 了 。 


6.2.2 ”缓存 是 透明 的 


要 充分 理解 的 一 点 是 ， 缓 存 是 不 可 以 被 寻 址 的 ; 
也 就 是 说 ， 核 心 如 果 有 生命 的 话 ， 它 是 看 不 到 缓存 的 
存在 的 ， 程 序 员 也 看 不 到 ， 即 不 存在 类 似 这 样 的 代 
码 : “Load 地 址 A 工 1 缓存 ”“Stor L2 缓 存 中 的 某 行 
数据 地 址 A”。 这 就 是 说 ， 程 序 员 无 法 细 粒 度 地 控制 
缓存 ， 但 是 可 以 粗 粒度 地 操控 缓 在。 比如， 实际 中 存 
在 类 似 这 样 的 代码 : “Flush Cache” (将 已 经 写 入 组 
存 但 是 还 没有 写 入 SDRAM 中 的 数据 写 入 到 SDRAM， 
比如 Intel x86 CPU 的 CLWB 指 令 ) 、“Prefetch 参数 ” 


(根据 参数 将 数据 预 读 入 缓存 ) 。 再 如 ， 可 以 控制 将 
缓存 中 的 某 项 数据 写 回 到 RAM 后 删除 缓存 中 的 该 项 数 
据 ， 比 如 Intel CPU 的 CLFLUSH (Cache Line Flush) 
指令 ， 或 者 将 某 项 数据 写 回 到 RAM (如 果 已 被 修改 ) 
但 是 并 不 删除 缓存 中 的 该 项 数据 ， 比 如 CLWB (Cache 
Line Write Back) 指令 。 

当然 ， 如 果 你 自己 设计 一 个 CPU， 就 是 要 让 程序 
员 可 以 操控 缓存 ， 那 也 不 是 不 可 以 。 有 些 特 殊 的 CPU 
是 这 样 设计 的 ， 有 数 百 KB 的 SRAM 缓 存 〈 缓 存 控 制 器 
的 运行 频率 与 核心 同 频 ) ， 有 数 GB 的 SDRAM， 数 百 
KB 的 SRAM 可 以 直接 寻 址 ， 也 就 是 SRAM 空 间 被 映射 
到 了 地 址 空间 中 ， 而 数 GB 的 SDRAM 不 可 直接 寻 址 。 
在 这 种 设计 中 ，SDRAM 控 制 器 作为 一 个 外 部 IO 设备 
控制 器 ， 其 上 只 有 少数 的 寄存 器 空间 被 映射 到 全 局 地 
址 空间 中 ， 这 些 寄存 器 与 SRAM 同 在 一 个 地 址 空间 。 
要 访问 SDRAM 中 的 数据 ， 程 序 必须 将 访 存 请 求 封装 
成 某 种 格式 的 指令 ， 然 后 将 指令 从 SRAM 缓 存 中 写 入 
到 SDRAM 控 制 器 的 相关 寄存 器 中 ，SDRAM 控 制 器 
再 从 SDRAM 中 读 出 数据 写 入 到 SRAM 中 。 对 于 这 类 
CPU， 程 序 中 指令 部 分 的 总 容量 就 不 能 超过 其 缓存 的 
总 容量 ， 因 为 外 部 SDRAM 不 可 直接 寻 址 ， 指 令 代 码 
不 能 放 到 外 部 SDRAM 中 ， 那 里 只 可 以 放 数 据 。 

还 有 一 些 CPU， 缓 存 不 可 直接 寻 址 ，SDRAM 可 以 
直接 寻 址 ， 但 是 为 了 给 程序 员 提 供 更 好 的 可 控 性 ， 增 加 
了 一 小 块 所 谓 的 Scratchpad RAM， 其 物理 上 采用 与 缓存 
一 样 的 SRAM， 但 是 可 以 被 直接 寻 址 ， 程 序 员 可 以 有 目 
的 地 将 一 些 需要 经 常 访 问 的 数据 载 入 到 这 里 永久 存放 。 


6.2.3 ”缓存 的 容量 、 频 率 和 延迟 


L1 缓存 与 CPU 核心 同 频率 运行 ， 但 是 这 并 不 
是 说 核心 可 以 在 一 个 时 钟 周期 内 就 从 L1 获 得 数据 或 
者 向 L1 中 写 入 数据 (核心 向 外 写 数 据 其 实 是 先 写 到 
stor buffer 中 ， 这 一 步 是 可 以 做 到 一 个 时 钟 周期 结束 
的 ) 。 如 果 CPU 要 取 的 数据 刚好 命中 L1 缓 存 ， 那 么 核 
心 只 需要 等 待 3 到 4 个 时 钟 周期 便 可 以 得 到 数据 ， 而 L2 
缓存 、L3 缓 存 、RAM 内 存 等 器 件 的 工作 频率 一 个 比 
一 个 低 ， 而 且 容 量 越 来 越 大 ， 查 询 起 来 越 慢 ， 核 心 就 
需要 等 待 更 多 时 钟 周 期 。 当 然 ， 核 心 不 会 白白 原 地 等 
待 ， 乱 序 执行 模块 会 调度 其 他 满足 条 件 〈 操 作 数 已 经 
准备 好 ) 的 指令 去 执行 ， 同 时 超 线程 模块 也 会 择机 切 
换 到 其 他 线程 的 代码 指令 将 它们 载 入 流水 线 来 填充 这 
些 原本 会 被 浪费 的 时 间 间 隙 中 。 
图 6-12 为 访问 各 类 存储 器 的 耗 时 和 周期 数量 级 示 
意图 。 具体 的 时 间 和 周期 数 随 着 不 同 CPU 型 号 、 不 同 
时 代 都 会 有 所 变化 ， 这 里 只 是 一 个 大 致 量 级 。 

只 有 核心 内 部 的 寄存 器 可 以 在 1 个 核心 时 钟 周期 
内 访问 到 ， 包 括 L1 在 内 的 各 级 缓存 都 无 法 做 到 ， 即 使 
L1 缓 存 控制 器 与 核心 运行 在 相同 的 频率 上 。 其 中 的 
原因 主要 有 两 点 : 第 一 个 原因 是 核心 发 出 的 地 址 请 求 
都 是 虚拟 地 址 ， 需 要 由 MMU 转 换 为 物理 地 址 ，MMU 
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查询 TLB 或 者 SDRAM 中 的 页 表 才 能 知道 某 虚 拟 地 址 对 
应 的 物理 地 址 是 什么 ， 如 果 命 中 TLB 则 可 以 在 1 个 时 钟 
周期 内 查 出 ， 如 果 不 命中 就 惨 了 ， 访 问 SDRAM 需 要 等 
待 更 长 时 间 。 第 二 个 原因 是 ， 查 询 到 物理 地 址 之 后 ， 
MMU 再 用 该 物理 地 址 向 L1 缓 存 控制 器 发 出 访问 请 求 ， 
工 1 缓存 需要 到 缓存 中 去 搜索 数据 所 在 的 位 置 ， 然 后 读 
出 数据 ， 返 回 给 取 指令 单元 或 者 Load/Stor 单 元 ， 所 以 
这 些 步 骤 加 起 来 总 共 需 要 耗费 数 个 时 钟 周期 ， 这 段 时 
间 就 是 L1 缓 存 的 访 存 时 延 。 如 果 L1 不 命中 ， 要 去 L2 
找 ， 时 延 将 成 倍增 加 ， 因 为 L2 缓 存 容 量 大 、 频 率 低 。 


图 6-12 


总 线 仲裁 示意 图 

因 不 同 产品 和 设计 而 异 ，L1 缓 存 的 容量 一 般 在 几 
十 上 百 KB 的 级 别 ，L2 大 概 在 数 百 KB 到 数 MB 级 别 ， 
L3 缓 存 大 概 在 十 几 到 几 十 MB 级 别 。 有 些 设计 中 还 有 
L4 缓 存 ，L4 多 数 采 用 SDRAM 作 为 介质 ， 大 小 在 几 十 
上 百 MB 级 别 ， 相 比 同样 用 SDRAM 作 为 介质 的 主 存 
储 器 而 言 ，L4 缓 存 SDRAM 运 行 频率 更 高 ， 而 且 会 通 
过 更 加 高 速 的 总 线 接口 接 入 到 离 核心 更 近 的 地 方 ， 
同时 实际 产品 中 一 般 直接 把 SDRAM 集 成 到 核心 和 组 
存 所 在 的 同一 个 芯片 内 部 ， 导 线 更 短 ， 所 以 其 总 线 
频率 可 以 提升 到 更 高 。L4 缓 存 一 般 又 被 称 为 :DRAM 
(Embeded DRAM) 。 


6.2.4 ”私有 缓存 和 共享 缓存 


在 多 数 设计 中 ， 每 个 核心 都 有 自己 的 L1 和 L2 缓 
存 。 存 在 这 样 一 种 可 能 性 : 核心 1 和 核心 2 上 运行 的 
两 个 独立 的 线程 都 需要 访问 地 址 A 上 的 数据 ， 那 么 ， 
核心 1 可 以 将 地 址 A 的 数据 载 入 自己 的 L1/L2 缓 存 ， 
同时 核心 2 也 可 以 将 同一 个 地 址 A 上 的 数据 载 入 到 自 
己 的 L1/L2 缓 存 。 原 本 位 于 SDRAM 中 的 地 址 A 上 的 
数据 ， 现 在 有 了 三 个 副本 : 核心 1 缓存 中 的 副本 、 
核心 2 缓存 中 的 副本 、SDRAM 中 的 副本 。 在 这 个 场 
景 下 ， 每 个 核心 的 LI/L2 缓 存 只 能 被 本 核心 访问 ， 而 
且 可 以 缓存 任意 地 址 上 的 数据 ， 不 用 在 乎 其 他 核心 
缓存 了 哪些 数据 ， 所 以 将 LI/L2 缓 存 称 为 私有 缓存 
(privatecache) 。 你 一 定 会 有 个 疑问 : 如 果 数 据 A 在 
核心 1 的 缓存 中 被 更 改 ， 那 么 核心 2 上 的 程序 访问 的 依 
然 是 旧 数 据 ， 怎 么 办 ? 好 问题 ， 本 章 后 面 大 部 分 篇 幅 
都 用 来 解释 这 个 问题 了 。 

在 多 数 设计 中 ，L3 缓 存 挂 接 到 一 个 共享 总 线 (或 
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者 其 他 类 型 的 总 线 ) 上 ， 可 以 供 所 有 核心 存 取 ， 此 为 
共享 缓存 (shared cache) 。 显 然 ， 当 核心 1 访问 了 地 
址 A， 却 由 于 不 命中 最 终 由 L3 缓 存 控制 器 从 SDRAM 
中 读 入 L3 缓 存 之 后 ， 如 果 核 心 2 也 访问 地 址 A 而 不 命 
中 从 而 请 求 到 了 L3 的 话 ， 那 么 会 在 L3 缓 存 处 发 生命 
中 ; 也 就 是 说 ， 数 据 在 共享 缓存 中 只 有 一 个 副本 ， 即 
不 可 能 在 共享 缓存 中 同时 存在 两 份 某 个 地 址 的 数据 。 

但 是 同一 个 地 址 的 数据 却 有 可 能 存在 多 个 相同 
的 副本 分 别 放置 在 L1、L2、L3 缓 存 中 (Inclusive 模 
A) 。 有 些 CPU 设 计 人 允许 这 样 ， 有 些 则 不 允许 ， 要 求 
同一 个 地 址 的 数据 在 L1、L2 和 L3 全 局 范围 内 只 能 存 
在 单一 副本 〈Exclusive 模 式 ) 。 

另外 思考 一 个 问题 : 如 果 地 址 A 的 数据 a 在 核心 1 
的 L1 缓 存 中 被 更 改 为 b， 那 么 此 时 核心 2 的 L1 缓 存 中 原 
本 缓存 的 地 址 A 的 内 容 a 是 不 是 就 过 期 了 ? 还 能 用 么 ? 
肯定 是 不 能 用 的 ， 那 么 核心 2 上 的 程序 要 将 过 期 的 数据 
a 载 入 寄存 器 进行 运算 ， 难 道 要 阻止 它 么 ? 这 就 牵扯 到 
多 核心 缓存 设计 上 一 个 最 为 复杂 的 问题 : 缓存 一 致 性 
问题 (cache coherency, СС) 。 这 个 问题 作为 本 章 的 
压轴 戏 放 在 后 面 介 绍 ， 前 面 先 打 一 下 基础 ， 才 能 更 深 
刻 的 理解 这 个 问题 。 不 过 你 可 以 尝试 着 思考 一 下 ， 比 
如 : 当 任 何 一 个 核心 更 新 了 某 个 其 私有 缓存 中 的 数据 
时 ， 如 果 能 够 将 该 数据 内 容 广播 给 其 他 核心 ， 让 所 有 人 
同步 更 新 一 下 自己 私有 缓存 中 的 这 份 数据 ， 不 就 可 以 了 
Z? 没 错 。 另 外 ， 如 果 某 个 核心 更 新 了 共享 缓存 〈 比 
如 L3 缓 存 ) 中 的 某 个 数据 ， 同 时 如 果 该 CPU 的 设计 为 
Exclusive 缓 存 模式 ， 那 么 该 请 求 就 不 会 产生 缓存 一 致 性 
问题 。 缓 存 一 致 性 问题 的 根源 在 于 多 个 核心 缓存 了 同一 
个 数据 的 多 个 副本 ， 而 之 间 又 没有 互相 通气 儿 ， 各 干 各 
的 ， 各 自 为 政 。Exclusive 模 式 的 共享 缓存 中 的 数据 在 所 
有 核心 范围 内 只 有 一 个 副本 ， 自 然 就 是 永久 一 致 的 。 


6.2.5 Inclusive 模 式 和 Exclusive 模 式 
多 级 缓存 的 存在 势必 要 考虑 一 个 设计 ， 那 就 是 L1 
缓存 里 已 经 存在 的 某 个 地 址 的 内 容 ， 是 否 还 有 必要 呆 
在 L2 缓 存 以 及 L3 缓 存 里 ? 毕竟 L1 里 的 所 有 数据 都 是 
从 RAM、L3、L2 缓 存 里 提升 上 来 的 ， 如 果 是 Inclusive 
(包含 ) 模式 ，L1 里 的 数据 在 L2 和 L3 以 及 RAM 里 都 
有 对 应 的 副本 ， 只 不 过 在 L1 里 一 定 是 最 新 的 。 
在 这 一 点 上 ， 不 同 的 CPU 设计 不 同 。 截 止 本 书写 
作 时 ，Intel 主 流 CPU 采 用 的 是 Inclusive 方 式 ， 而 AMD 
则 采用 的 是 Exclusive СНЕ) 的 方式 ， 也 就 是 保证 缓 
存 行 在 L1、L2 和 L3 缓 存 中 只 存在 一 份 副本 。 要 注意 
的 是 ，Inclusive 只 有 下 级 缓存 包含 上 级 缓存 的 内 容 ， 
并 不 意味 着 L3 中 的 某 条 数据 必须 也 在 L2/L1 中 存在 ， 
但 是 L1 中 存在 的 必须 在 L2 和 L3 中 存在 副本 。 
Inclusive 设 计 的 劣势 不 用 多 说 ， 自 然 是 浪费 了 额外 
的 空间 ， 以 及 需要 很 多 的 同步 操作 ， 比 如 L1 中 的 某 条 
数据 被 程序 更 改 了 ， 那 么 L2 和 L3 中 的 对 应 副本 也 需要 
被 同步 更 改 ， 反 之 亦 然 。 同 时 ，Inclusive 设 计 还 需要 状 


态 位 来 表示 上 级 缓存 与 下 级 缓存 之 间 的 不 一 致 ， 比 如 
IL1 中 更 新 了 某 个 数据 ， 但 是 L2 中 的 副本 尚未 同步 。 

但 是 ， 其 所 带 来 的 收益 也 不 小 。 比 如 ， 当 多 个 核 
心 共 享 L3 缓 存 时 ，IL3 缓 存 中 会 包含 所 有 核心 的 L1 和 
IL2 缓 存 内 容 ， 当 某 个 核心 的 某 个 访问 请 求 在 其 自身 的 
IL1 和 L2 均 不 命中 ， 需 要 查询 L3 的 时 候 ， 通 过 L3 缓 存 
就 可 以 知道 其 他 核心 的 L1 或 者 L2 缓 存 中 是 否 有 该 数 
据 的 副本 ， 并 且 在 哪个 核心 可 能 有 (可 能 L1 已 经 淘汰 
掉 的 数据 依然 呆 在 L3 里 ， 所 以 有 一 定 误 判 率 ， 只 能 是 
“可 能 有 ”) ， 哪 个 没有 (一 定 没有 ) 。 而 如 果 L3 未 
命中 ， 那 么 也 没有 必要 去 其 他 核心 的 L1/L2 中 申请 获 
取 数据 了 〈 上 文中 说 到 过 缓存 一 致 性 问题 ， 因 为 其 他 
核心 中 可 能 含有 同一 个 地 址 的 缓存 副本 ， 该 核心 必须 
拿 到 这 份 最 新 的 副本 ) ， 因 为 肯定 也 不 命中 。 

可 以 在 L3 缓 存 中 对 每 条 数据 记录 一 个 bitmap〔 位 
图 ) ， 每 个 核心 对 应 一 位 ， 位 为 0 则 表示 该 核心 的 私 
有 缓存 中 没有 这 条 数据 ， 为 1 则 表示 可 能 会 有 这 条 数 
据 ， 这 样 就 可 以 更 快速 地 判断 哪个 数据 在 哪个 核心 的 
私有 缓存 中 可 能 存在 副本 ， 从 而 有 目的 地 去 对 应 核心 
的 LI/L2 缓 存 请 求 最 新 的 数据 〈 接 收 到 该 请 求 的 核心 
的 缓存 控制 器 必须 把 其 L1 和 L2 都 查询 一 遍 来 找 这 条 
数据 ， 因 为 L3 里 记录 的 只 是 一 位 ， 只 能 表示 有 或 者 没 
有 ， 并 不 能 区 分 出 是 在 L1 还 是 L2 中 有 。 

如 果 下 层 缓 存 容量 相对 上 层 较 小 ， 比 如 只 有 4 倍 
上 层 的 容量 ， 那 么 此 时 采用 Inclusive 设 计 的 话 就 会 占 
用 太 大 比例 的 元 余 空间 ， 会 降低 命中 率 ; 但 是 如 果 是 
十 几 倍 甚至 几 十 倍 ， 那 么 由 于 空间 因素 导致 的 命中 率 
下 降 就 不 是 很 大 了 。 

相 比 之 下 ，Exclusive 设 计 的 优点 在 于 没有 空间 浪 
费 ， 但 是 其 缺点 则 在 于 需要 交换 的 数据 量 较 多 ， 比 如 
L1 未 命中 但 是 L2 命 中 了 ， 那 么 会 从 L2 读 出 该 缓存 行 
进入 L1， 同 时 L1 淘 汰 一 个 缓存 行进 入 L2， 两 者 互 换 
一 下 位 置 ， 同 比 之 下 ，Inelusive 模 式 只 需要 从 下 级 组 
存 复制 到 上 级 缓存 即 可 。 

另外 ，Exclusive 模 式 下 ， 所 有 CPU 的 访 存 读 入 数 
据 先进 入 L1， 如 果 L1 满 则 移出 victim， 意思 是 被 御 
牲 ， 被 误伤 ) 一 条 到 L2，L2 如 果 也 满 了 ， 就 移出 一 条 
到 L3，L3 满 的 话 则 直接 淘汰 (invalidate， 做 个 标记 ， 
表示 可 以 被 新 数据 覆盖 ) 掉 一 条 。 


6.2.6 Dirty 标 记 位 和 Valid 标记 位 


缓存 毕竟 只 是 临时 存储 ， 最 终 所 有 数据 是 要 在 待 
在 RAM 里 的 。 如 果 有 新 数据 要 进入 缓存 ， 但 是 缓存 已 
经 被 占 满 ， 那 么 就 需要 腾 出 空间 了 ， 腾 出 空间 就 意味 
着 需要 找 出 一 些 可 以 让 新 数据 直接 覆盖 的 条 目 。 如 果 
缓存 中 的 某 条 数据 已 经 被 核心 变更 了 ， 则 它 一 定 不 能 
被 新 数据 直接 覆盖 ， 否 则 数据 就 和 了 ， 此 时 必须 先 将 
其 刷 回 (Flush) 到 SDRAM 中 保存 ， 然 后 方 可 被 新 数 
据 覆 盖 。 如 果 某 条 数据 没有 被 核心 更 改过 ， 则 可 以 直 
接 视 其 为 可 用 空间 ， 被 直接 覆盖 。 


哪些 条 目 变 更 了 ， 哪 些 没 变更 ， 要 想 快速 判断 的 
话 ， 最 方便 的 就 是 使 用 bitmap， 每 条 数据 用 一 位 表示 其 
是 否 更 新 ， 更 新 了 置 1， 没 更 新 过 则 保持 0。 实 际 上 ， 
缓存 内 部 并 不 是 集中 使 用 bitmap 保 存 这 些 状态 的 ， 而 是 
在 每 条 数据 的 内 容 旁 边 用 一 位 来 记录 这 个 状态 ， 也 称 
为 Dirty 〈 脏 ， 意 思 是 核心 变更 了 这 条 数据 里 的 全 部 或 
者 某 些 内 容 ) 位 。 如 果 脏 条 目 被 写 入 了 RAM (比如 使 
用 Flush 指 令 ) ， 则 需要 将 Dirty 位 置 为 0。 实 际 上 所 有 数 
据 条 目的 Dirty 位 也 确实 形成 了 一 个 bitmap。 

为 了 表示 “该 条 目 是 否 可 以 被 新 数据 直接 覆 
盖 ”， 还 需要 增加 一 个 Invalid 位 ， 它 为 1 表示 可 以 直 
接 覆盖 ， 为 0 则 不 可 以 被 覆盖 。 仔 细 想 一 下 ， 好 像 
Invalid 位 不 是 必要 的 ， 因 为 缓存 控制 器 只 需要 判断 
Dirty 是 否 为 0 即 可 知道 是 否 可 以 直接 覆盖 它 。 其 实 ， 
Invalid 位 源 于 应 对 多 个 核心 同时 访问 某 个 地 址 数据 的 
场景 ， 也 就 是 缓存 一 致 性 处 理 场景 。 比 如 核心 ] 写 入 
了 地 址 A 到 其 L1 缓 存 ， 此 时 核心 2 上 的 L1 缓 存 中 原本 
缓存 的 地 址 A 的 数据 既 不 能 被 设置 为 Dirty (如 果 设 
置 为 Dirty 则 需要 刷 回 RAM， 显 然 此 时 该 数据 已 经 过 
时 ， 不 需要 刷 回 RAM) ， 也 不 能 设置 为 非 Dirty， 只 
能 被 设置 为 Invalid。 


6.2.7 т 


缓存 中 的 数据 是 如 何 管理 的 ? 首先 要 想到 的 是 
数据 分 块 是 多 大 ， 也 就 是 上 文中 的 “ 某 条 数据 ”中 的 
“条 ”是 多 大 。 缓 存 控制 器 将 数据 读 入 、 淘 汰 、 置 
换 、 写 出 的 时 候 ， 最 小 单位 就 是 一 条 。 假 设 一 下 ， 这 
一 条 数据 是 否 可 以 是 1 字 节 ? 理论 上 完全 可 以 , 但 是 
太 不 划算 了 ， 我 们 说 程序 的 访 存 行为 具有 空间 局 部 
性 ， 也 就 是 访问 了 字 节 A， 很 大 程度 上 接着 就 会 访问 
字 节 A+1、A+2， 所 以 缓存 从 SDRAM 内 存 中 尽量 一 
次 读 取 多 个 字 节 才 划 算 ， 即 将 缓存 和 内 存 之 间 的 数据 
总 线 的 位 宽 加 大 ， 不 要 让 它 只 有 8 位 。 另 外 ， 缓 存 中 
保存 的 不 仅仅 是 实际 内 容 ， 还 要 记录 这 条 数据 对 应 的 
物理 地 址 ， 以 及 其 他 一 些 控制 位 和 状态 位 (比如 上 述 
的 bitmap、Invalid 位 等 ) 。 所 以 ， 单 单 保存 地 址 ( 假 
设 为 64 位 地 址 ) 就 得 8 字 节 ， 而 如 果 以 字 节 为 管理 单 
位 ， 那 么 就 得 为 每 个 字 节 保存 至 少 64 位 〈8 字 节 ) 的 地 
址 记录 ， 记 录 本 身 比 内 容 都 要 大 8 倍 ， 简 直 不 可 接受 。 

现实 中 一 般 采 用 16 字 节 、64 字 节 、128 字 节 的 粒 
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度 作 为 一 条 数据 ， 此 时 只 需要 用 该 条 数据 第 一 个 字 
节 所 在 的 物理 基地 址 来 描述 这 个 块 就 可 以 了 。 这 一 
“条 ”数据 ， 专 业 上 称 为 一 个 缓存 行 (cache line) 。 
一 般 来 讲 ， 目 前 主流 CPU 的 缓存 行 的 大 小 都 采用 64 字 
节 ， 其 主要 原因 是 主流 的 DDR SDRAM 一 次 连续 数据 
传输 通常 最 大 只 能 到 64 字 节 ， 如 图 6-13 所 示 。 

假设 ， 一 个 缓存 行 的 大 小 为 IMB， 你 有 1024MB 
内 存 ， 则 只 需要 记录 1024 个 基地 址 就 可 以 描述 任意 
一 个 1MB 空 间 ， 第 一 个 基地 址 在 0 处 ， 第 二 个 在 1MB 
处 ， 第 三 个 在 2MB 处 ， 以 此 类 推 。 数值 1024 的 二 进 制 
只 需要 10 位 就 可 以 表示 了 ， 所 以 每 1IMB 缓 存 行 附带 
10 位 的 额外 数据 ， 开 销 可 以 忽略 不 计 。 同 理 ， 同 样 是 
1024MB 内 存 ， 如 果 将 缓存 行 粒度 降低 为 64 字 节 ， 你 
可 以 自己 推导 一 下 ， 则 需要 24 位 来 描述 。 同 理 ， 如 果 
内 存 总 量 为 4GB， 缓 存 行为 64 字 节 ， 就 需要 26 位 。 如 
果 内 存 容 量 真 的 是 24 字 节 ， 则 可 以 算出 ， 需 要 58 位 的 
基地 址 标识 来 描述 64 位 地 址 空间 内 的 、 从 0 开始 以 64 
字 节 为 粒度 的 〈64 字 节 对 齐 ) 任意 64 字 节 数 据 。 这 个 
地 址 标识 被 称 为 标签 (Тар) 。 

这 样 的 话 ， 对 于 任何 也 64 位 的 访 存 地 址 ， 高 58 位 
用 来 表示 该 64 字 节 的 数据 块 位 于 整个 地 址 空间 内 的 偏 
移 量 ， 而 64-58=6， 剩 下 的 6 位 表示 和 寻 址 的 就 是 这 2 
=64 字 节 缓 存 行内 部 的 每 一 个 字 节 。 同 理 ， 如 果 缓 存 
行 大 小 被 设计 为 128 字 节 ， 那 么 需要 7 位 来 描述 一 行内 
部 的 每 个 字 节 ， 然 后 再 用 "个 位 来 表示 “共有 2" 个 128 
字 节 缓存 行 ”的 内 存 空间 。 对 于 64 位 地 址 空间 ， 那 就 
是 共有 2“?=2” 个 128 字 节 缓 存 行 ， 每 个 128 字 节 内 部 
又 有 2' 个 字 节 。 

CPU 核 心 发 出 的 访 存 地 址 信号 以 及 长 度 信 号 会 传 
递 给 缓存 控制 器 。 注 意 ， 核 心 发 出 的 地 址 可 以 是 任意 
地 址 ， 并 不 一 定 对 齐 到 64 字 节 的 边界 ， 比 如 核心 要 访 
问 地 址 为 333 的 字 节 ， 第 333 号 地 址 虽然 没 卡 在 任何 64 
字 节 边界 上 ， 但 是 该 字 节 一 定 落 入 了 某 个 64 字 节 的 行 
里 。 当 缓存 控制 器 收 到 这 个 地 址 信号 之 后 ， 其 必须 判断 
出 该 地 址 到 底 落 入 了 哪个 64 字 节 ， 然 后 得 在 缓存 中 所 有 
条 目的 Tag 字 段 中 查找 到 底 是 否 缓存 了 该 64 字 节 的 行 。 

如 何 算 出 第 333 号 地 址 〈 注 意 ， 该 地 址 描述 的 是 
地 址 空间 中 的 第 几 个 字 节 ， 而 不 是 第 几 个 行 ) 落 在 了 
第 几 个 行 〈 每 行 64 字 节 ) 中 ? 有 个 简便 算法 ， 就 是 用 
333 除 以 64 取 整数 商 ， 也 就 是 s， 那 么 第 333 字 节 落 入 
了 第 5 个 64 字 节 的 行 里 ， 这 就 算出 来 了 。 然 后 再 去 组 
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存 中 的 所 有 非 Invalid 状 态 的 条 目 中 的 Tag 字 段 去 找 有 
没有 Tag=5 的 ， 有 则 命中 ， 没 有 则 不 命中 。 

如 果 命 中 了 ， 只 能 证 明 缓存 中 Tag 为 5 的 这 64 字 节 
行 中 包含 第 333 号 地 址 的 数据 ， 那 么 又 怎么 知道 第 333 
号 地 址 的 数据 在 这 64 字 节 内 的 哪个 地 方 ( 偏 移 量 》 
па? 显然 需要 这 么 算 : 333 除 以 64 取 余数 为 13; 也 就 
是 说 ， 第 333 号 地 址 对 应 的 字 节 在 第 5 个 64 字 节 缓 存 行 
开始 往 后 再 数 13 个 字 节 ， 就 是 那个 字 节 。 

实际 上 ， 地 址 都 是 二 进 制 的 。 如 果 是 64 位 地 址 空 
间 、64 字 节 缓 存 行 容量 ， 则 对 于 任意 一 个 64 位 地 址 ， 
缓存 控制 器 可 以 直接 利用 收 到 的 访 存 请 求 中 的 64 位 地 
址 的 高 58 位 就 ， 可 以 知道 该 地 址 落 在 了 SDRAM 内 的 
第 几 个 缓存 行 上 ， 也 就 是 第 〈58 位 所 表示 的 数值 ) 行 
上 。 所 以 ， 缓 存 控制 器 实际 上 直接 拿 这 58 位 与 缓存 
中 所 有 条 目 所 记录 的 行 号 /Tag 比 对 ， 就 可 以 判断 是 否 
命中 缓存 。 如 果 命中 了 某 行 ， 就 再 用 请 求 的 地 址 中 的 
剩 下 的 6 位 来 索引 该 行 ， 也 就 是 从 该 行 开始 往 后 数 第 
〈 这 6 位 所 表示 的 数值 ) 个 字 节 ， 该 64 位 地 址 寻 址 的 
就 是 这 个 字 节 。 说 到 这 里 ， 大 家 应 该 翻 过 去 回顾 一 下 
图 4-42 及 其 上 下 文 。 

这 里 有 个 问题 ， 缓 存 中 的 条 目 是 无 序 乱 放 的 ， 
为 核心 什么 时 候 访问 哪里 根本 是 不 确定 的 ， 访 问 谁 就 
把 谁 读 进来 ， 最 后 就 是 完全 无 序 放置 的 。 那 么 ， 如 果 
每 收 到 一 条 访 存 请 求 就 把 缓存 中 的 所 有 Tag 都 比 对 一 
遍 ， 这 样 非常 耗费 时 间 。 在 第 3 章 中 曾经 介绍 过 CAM 
内 存 〈 每 个 位 都 自 带 比较 器 ) 确实 可 以 做 到 一 个 周期 
内 就 能 查 到 存储 器 中 是 否 存储 了 某 条 数据 ， 但 是 由 于 
其 增加 了 大 量 额 外 的 逻辑 门 ， 面 积 非常 大 ， 而 且 要 比 
对 的 地 址 比较 长 ， 所 以 功 耗 高 ， 同 时 运行 频率 也 上 
不 去 。 所 以 一 般 是 这 样 去 处 理 : 将 Tag 与 Data 分 离 到 
不 同 存储 器 中 ，Tag 存 储 器 使 用 CAM 做 到 迅速 输出 结 
果 ， 然 后 拿 着 这 个 结果 再 去 选 通 对 应 的 Data 存 储 器 中 
的 行 ， 从 而 读 / 写 数据 ， 而 不 是 Tag 和 Data 全 用 CAM。 

即便 如 此 ，CAM 的 成 本 还 是 有 些 不 能 接受 。 如 果 
不 使 用 CAM， 是 否 还 有 什么 办 法 来 加 速 搜索 过 程 呢 ? 


6.2.8 全 关联 /直接 关联 /组 关联 


人 们 想到 了 另 一 种 办 法 提升 查找 速度 ， 那 就 是 不 
允许 缓存 行 被 凌乱 地 存放 ， 必 须 按 照 一 定 的 顺序 和 规 
则 存放 ， 具 体 机 制 如 图 6-14 所 示 。 

假设 RAM 容 量 为 256MB， 缓 存 的 容量 为 32MB， 
那么 可 以 在 逻辑 上 将 RAM 空 间 逻 辑 分 割 成 8 个 与 缓存 
容量 相同 ， 也 就 是 32MB 的 大 块 颗粒 ， 假 设 缓存 行 的 
容量 为 8MB (实际 中 不 可 能 这 么 大 ， 在 此 仅 举 例 使 
用 ) ， 则 缓存 共 可 容纳 4 个 缓存 行 。 

人 们 这 样 来 设计 : 当 RAM 中 某 个 8MB 的 缓存 
行 需要 被 读 入 缓存 时 ， 它 只 能 被 放 在 固定 位 置 ， 不 
能 乱 放 ， 这 个 固定 位 置 与 该 行 原来 位 于 RAM 空 间 的 
32MB 颗 粒 中 的 相对 位 置 相 同 ， 从 图 6-14 中 很 容易 理解 
这 一 点 。 比 如 ， 第 一 块 32MB 颗 粒 中 的 第 一 个 缓存 行 ， 


也 就 是 1.1 缓 存 行 ， 只 能 被 放 在 缓存 中 的 第 一 行 上 ， 放 其 
他 位 置 上 是 不 允许 的 ， 就 算 其 他 位 置 空闲 也 不 可 以 。 


< 


场景 4 
6-14 组 关联 示意 图 


这 样 看 来 ，1.1 和 2.1、3.1 以 及 x.1 (x= 任 意 ) 是 不 
可 能 同时 出 现在 缓存 中 的 了 。 没 错 ， 这 就 是 这 种 方案 
的 一 大 劣势 。 如 果 缓 存 中 已 经 存储 了 1.1， 此 时 CPU 如 
果 想 要 访问 4.1， 那 一 定 不 会 命中 ， 此 时 缓存 控制 器 
必须 将 4.1 读 入 ， 清 掉 1.1， 如 果 1.1 未 被 修改 则 直接 清 
掉 ， 如 果 已 被 修改 则 需要 将 1.1 写 入 RAM 空 间 中 。 

那么 这 个 方案 的 优势 在 哪 ? 优势 当然 是 缓存 控制 
器 终于 可 以 不 用 查 表 来 找 数据 了 ， 因 为 每 个 缓存 行 位 
置 是 按 规则 而 固定 ， 所 以 缓存 控制 根据 收 到 的 地 址 ， 
先 判断 出 该 地 址 属于 某 个 〈 哪 个 都 行 ， 这 一 步 不 用 关 
心 ) 32MB 颗 粒 中 的 第 几 个 缓存 行 ， 然 后 就 直接 去 那个 
位 置 去 比 对 该 位 置 缓存 行 的 Tag。 如 果 缓 存 中 该 位 置 的 
Tag 显 示 与 所 请 求 的 地 址 属于 同一 个 32MB 颗 粒 〈 这 一 
步 才 要 关心 ， 比 对 ) ， 那 就 命中 了 ; 如果 不 属于 同一 
个 颗粒 ， 那 就 没命 中 ， 需 要 从 RAM 读 出 对 应 数据 ， 挤 
占 缓存 中 的 该 位 置 。 比 如 ， 缓 存 控制 器 收 到 一 个 针对 
7.3 行 内 某 个 地 址 的 访 存 请 求 ， 缓 存 控制 器 判断 出 该 地 
址 落 入 了 某 32MB 颗 粒 的 第 3 个 缓存 行 ， 则 直接 去 缓存 
中 的 第 3 行 读 出 其 Tag 进 行 比 对 ， 看 看 是 不 是 刚好 是 7.3 
这 一 行 (也 有 可 能 是 1.3、2.3…9.3) 。 如 果 是 ， 则 命 
中 。 那 么 ， 缓 存 控制 器 是 如 何 判断 出 某 个 地 址 与 缓存 
的 第 几 行 相关 联 的 呢 ? 可 以 算出 来 ， 比 如 SDRAM 中 的 
第 15 行 必须 被 落 在 缓存 中 的 第 3 行 ， 因 为 15 除 以 缓存 行 
的 数量 (4) 的 余数 是 3; 同 理 ，SDRAM 中 的 第 10 行 必 
须 落 入 缓存 的 第 2 行 。 但 是 计算 除法 是 需要 耗费 不 少 周 


期 的 ， 为 了 一 条 访 存 请 求 而 去 执行 了 更 “宏大 ”的 计 
算 ， 本 末 倒 置 ， 所 以 必须 要 用 更 快 的 方法 。 

256MB 的 地 址 空间 可 以 用 28 位 来 描述 ， 如 果 将 
其 分 成 8 个 与 缓存 相同 大 小 ， 即 32MB 的 块 的 话 ， 也 
就 是 一 共有 2 个 32MB 的 块 。 这 样 的 话 ， 这 28 位 地 址 
的 高 3 位 就 可 以 作为 块 序号 ， 也 就 是 说 ， 所 有 000 开 
头 的 地 址 一 定 会 落 入 第 1 个 32MB 块 内 ， 所 有 001 开 
头 的 地 址 一 定 会 落 入 第 二 个 32MB 的 块 内 。 缓 存 行 
大 小 为 8MB ， 共 可 容纳 4 行 ， 这 4 行 用 2 位 就 可 以 描 
述 。 所 以 ， 对 于 地 址 0011100000000000000000000111 
这 个 28 位 的 地 址 来 讲 ， 可 以 这 样 逻辑 分 割 : 001 11 
00000000000000000000111，001 表 示 该 28 位 地 址 对 应 
的 字 节 一 定 落 入 第 2 个 32MB 的 块 中 ， 而 11 则 表示 该 28 
位 的 地 址 对 应 的 字 节 一 定 会 落 入 刚才 那个 32MB 块 中 的 
第 4 个 行 中 ， 而 00000000000000000000111 〈23 位 ， 描 述 
了 8MB 的 空间 ， 也 就 是 一 个 缓存 行 ) 则 表示 该 28 位 对 
应 的 字 节 就 是 刚才 这 个 行 从 头 开始 数 的 第 7 个 字 节 。 

可 以 看 到 ， 在 这 个 示例 下 ， 缓 存 控制 器 根本 不 需 
要 算出 某 个 地 址 所 在 的 行 号 ， 因 为 从 高 往 低 的 第 3 位 和 
第 4 位 的 两 位 组 合 起 来 就 是 行 号 ， 而 头 三 位 则 是 块 号 。 
上 面 说 过 ， 不 用 关心 块 号 ， 只 管 行 号 。 所 以 ， 该 示例 
场景 下 ， 当 缓存 控制 器 将 某 个 地 址 的 数据 从 SDRAM 
读 出 写 入 缓存 时 ， 必 须 写 入 到 该 地 址 的 高 第 3、4 位 
索引 的 行 中 ， 比 如 如 果 是 00 则 写 入 第 1 行 ，10 则 写 入 
第 3 行 。 同 时 还 需要 将 该 地 址 的 头 3 位 ， 也 就 是 块 号 ， 
一 同 写 入 缓存 行 中 ， 这 头 3 位 就 是 上 文中 所 述 的 Tag。 假 
如 SDRAM 中 的 8.4 行 被 缓存 在 了 缓存 中 ， 这 一 行 的 块 号 为 
111〈 第 8 个 块 ) ， 行 号 为 11 〈 第 4 行 ) ， 那 么 缓存 行 中 记 
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录 的 就 是 : 该 行 的 Tag (111) 、 该 行 的 内 容 。 此 时 ， 假 
设 核心 要 访问 001 11 00000000000000000000111 这 个 地 址 上 
的 数据 ， 那 么 缓存 控制 器 收 到 该 地 址 请 求 之 后 ， 判 断 第 
3、4 位 为 11， 便 去 缓存 中 的 第 4 行将 Tag 字 段 读 出 ， 一 看 为 
111， 而 请 求 的 地 址 的 头 3 位 是 001，Tag 不 匹配 ， 所 以 缓存 
不 命中 ， 于 是 去 SDRAM 读 取 其 内 容 连同 其 Tag 起 写 入 该 
行 ， 然 后 将 84 行 覆盖 掉 。 当 然 ， 如 果 84 行 的 D 位 被 设置 ， 
不 能 直接 覆盖 ， 需 要 先 将 84 这 行内 容 写 入 到 SDRAML。 

这 样 设计 之 后 ， 缓 存 控制 器 就 有 的 放 矢 了 ， 指 哪 
打 哪 ， 而 不 是 去 遍历 查 表 ， 这 样 查找 速度 就 会 增加 。 
一 个 地 址 中 的 头 几 位 块 号 称 为 Tag (注意 ， 与 上 文中 的 
Tag 不 同 ， 上 文中 Tag 指 的 是 块 号 + 行 号 一 起 ) ， 将 后 面 
几 位 行 号 称 为 Index， 而 剩 下 的 位 描述 的 则 是 行内 的 
字 节 号 ， 被 称 为 Offset。 实 际 上 ， 缓 存 行 容 量 一 般 在 
64 字 节 左 右 (因为 截止 当前 的 商用 大 部 分 SDRAM 控 
制 器 可 一 次 性 批量 读 写 64 字 节 ) ， 如 果 CPU 的 地 址 
线 位 数 为 32 位 ， 也 就 是 总 寻 址 空间 为 4GB， 缓 存 容量 
假设 为 512KB， 那 么 4GB 中 共有 8192 个 512KB 的 块 ， 
108,8192=13, ЖА Тар 1340; 512KB 中 共有 
8192 个 64 字 节 的 缓存 行 ， 那 么 Index 位 就 是 排 在 高 
13 位 之 后 的 再 13 位 ， 剩 下 的 6 位 则 作为 Offset， 寻 址 
64 字 节 中 的 每 个 字 节 。 也 就 是 说 ， 实 际 设计 中 Tag 和 
Index 的 位 数 比 较 多 ，Offset 的 位 数 比 较 少 。 

人 们 把 之 前 那 种 SDRAM 中 的 任何 一 行 都 可 以 放 
到 缓存 中 任何 一 行 的 任意 映射 /关联 的 做 法 ， 称 为 全 关 
联 绥 存 设计 Cfullassociative) ， 或 者 称 为 全 相 联 或 者 
全 映射 。 而 冬瓜 哥 认为 “任意 关联 /任意 映射 ”这 个 词 
更 易 理解 。 如 果 某 个 SDRAM 行 只 能 根据 地 址 中 的 行 
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图 6-15 ”全 关联 (任意 关联 ) 查 表 过 程 示意 图 


本 大 话 计算 机 一 一 计算 机 系统 底层 架构 原理 极限 剖析 


号 放置 到 缓存 中 对 应 行 号 的 行 ， 人 们 把 这 种 设计 称 为 
直接 关联 /直接 相 联 /直接 映射 设计 (direct associative/ 
direct mapped) 。 

对 于 全 关联 设计 ， 其 对 应 的 电路 示意 图 如 图 6-15 
所 示 。 缓 存 控制 器 先 将 收 到 的 地 址 、 访 存 长 度 等 信 
号 锁 存 到 寄存 器 中 ， 然 后 将 地 址 中 的 Tag 段 直接 输送 
到 一 堆 比 较 器 中 〈CAM 型 存储 器 自 带 ) ， 与 缓存 中 
所 有 行 的 Tag 字 段 进行 并 行 比较 ， 然 后 将 输出 信号 输 
送 到 一 个 译 码 器 来 判断 是 否 命中 、 命 中 了 第 几 行 〈 如 
命中 ) ， 然 后 用 译 码 器 的 输出 信号 ， 与 缓存 控制 器 的 
综合 判断 信号 以 及 Offset、 访 存 长 度 字段 共同 作用 于 
Mux/Demux 组 ， 来 将 对 应 的 1 个 或 者 多 个 字 节 (取决 
于 访 存 长 度 ) 写 入 缓存 行 ， 或 者 从 缓存 行 读 出 到 寄存 
器 中 ， 再 经 由 缓存 控制 器 从 与 取 指 令 单元 (LS 单元 连 
接 的 总 线 上 传递 给 出 去 。 如 果 读 操作 没有 命中 ， 则 
缓存 控制 器 就 向 SDRAM 控 制 器 发 送 读 信 号 ， 读 入 该 
缓存 行 ， 然 后 再 按照 相同 的 方法 将 数据 输送 出 去 。 


虽然 缓存 控制 器 从 SDRAM 一 次 至 少 拿 / 放 一 
行 ， 但 是 取 指 令 单元 和 L/S 单 元 是 可 以 以 字 节 为 粒 
度 向 L1 缓 存 控 制 器 请 求 数据 的 ， 它 们 向 缓存 控制 器 
发 出 的 是 一 个 起 始 地 址 ， 然 后 还 要 发 送 一 个 长 度 信 
号 ， 告 诉 缓存 控制 器 从 这 个 地 址 开始 读 或 者 写 几 个 
字 节 。 所 以 ， 需 要 复杂 的 Mux/Demux 组 来 将 对 应 
数量 的 字 节 从 缓存 行 中 读 出 或 者 写 入 。 缓 存 读 写 过 


程 还 是 比较 复杂 的 ， 这 还 是 基本 的 操作 ， 后 文中 你 
会 看 到 缓存 控制 器 要 做 的 事情 太 多 了 。 所 以 ， 一 条 
访 存 请 求 几乎 不 可 能 在 一 个 时 钟 周期 就 完成 ， 而 图 
6-15 中 给 出 的 示意 图 其 实 是 用 了 两 个 周期 : 第 一 个 
周期 查询 是 否 命中 ,命中 则 将 数据 读 出 放 到 读 寄存 
器 中 ; 第 二 个 周期 缓存 控制 器 将 读 寄存 器 的 信号 导 
通 到 数据 总 线 ， 从 而 发 送 给 上 游 发 出 请 求 的 单元 。 


再 来 看 看 直接 关联 模式 下 的 硬件 示意 图 ， 如 图 
6-16 所 示 。 

在 直接 关联 架构 下 ， 不 需要 一 大 堆 的 比较 器 ， 地 
址 的 Index 字 段 信号 直接 导 通 到 Mux 上 选 出 对 应 行 的 
Tag 字 段 ， 然 后 与 请 求 中 的 Tag 字 段 比 较 ， 如 果 命 中 则 
读 出 数据 ， 不 命中 就 去 SDRAM 中 载 入 这 一 行 。 

这 种 方法 可 以 让 电路 更 加 简单 ， 所 以 整体 的 运行 
频率 可 以 做 得 比较 高 。 但 是 很 显然 ， 这 种 方案 的 局 限 
性 就 是 缓存 行 必须 被 放 在 固定 位 置 ， 缓 存 中 不 允许 存 
在 行 号 相同 的 两 个 缓存 行 ， 存 在 冲突 。 假 设 程序 就 是 
要 访问 1.1 行 中 的 某 些 字 节 ， 同 时 还 要 访问 2.1 行 里 的 
某 些 字 节 呢 ? 此 时 就 会 发 生 乒 乓 效应 ， 访 问 1.1 时 2.1 
行 被 淘汰 掉 ， 访 问 2.1 行 时 再 将 1.1 行 淘汰 掉 ， 反 反复 
复 ， 效 率 很 低 。 

有 个 办 法 解决 这 个 问题 ， 那 就 是 放置 多 份 缓存 
存储 器 ，1.1 放 在 其 中 一 份 的 第 一 行 ，2.1 则 放 在 另 一 
份 的 第 一 行 ， 避 免 了 冲突 。 每 份 缓存 存储 器 被 称 为 
一 路 (Way) ， 而 多 Way 中 具有 相同 行 号 的 行 逻辑 上 
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图 6-16 组 关联 缓存 查找 过 程 示意 图 
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图 6-17 一 个 4 路 组 关联 缓存 架构 示意 图 


组 成 一 个 组 (set) ， 一 个 组 内 的 缓存 行 是 相互 争夺 位 
置 的 、 冲 突 的 ， 所 以 用 多 个 路 尽 可 能 多 地 为 这 些 冲突 
的 行 提 供 位 置 。 这 种 设计 被 称 为 组 关联 /组 相 联 (set 
associative) 。 根 据 Way 的 数量 ， 一 般 人 们 俗称 为 “2 
路 组 关联 ”“4 路 组 关联 ”。 一 般 来 讲 ，4 路 组 关联 已 
经 能 够 保证 足够 高 的 命中 率 ， 当 然 也 有 采用 8 路 组 关 
联 的 产品 。 所 以 该 模式 最 终 的 通用 叫 法 就 是 多 路 组 关 
联 。 直 接 关联 等 价 于 1 路 组 关联 。 有 多 少 组 ， 完 全 取 
决 于 缓存 总 容量 、Way 的 数量 、 单 个 缓存 行 容量 这 三 
个 因素 。 图 6-17 为 一 个 4 路 组 关联 架构 示意 图 。 

图 6-18 为 多 路 组 关联 设计 示意 图 。3.1 可 以 存在 
于 Way1 的 第 一 行 ， 而 2.1 可 以 同时 被 放 在 Way2 的 第 一 
行 ， 但 是 此 时 如 果 再 有 比如 4.1 也 想 进 入 缓存 ， 就 需要 
挤占 某 个 Way 里 的 第 一 行 了 ， 因 为 只 有 两 个 Way， 所 
以 只 能 存 两 个 行 号 为 1 的 行 。Way 越 多 ， 灵 活性 就 越 
高 ， 冲 突 概率 也 越 小 ， 但 是 成 本 会 随 之 增加 。 
Way1 缓存 Way2 
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图 6-18 2 路 组 关联 缓存 示意 图 


在 整个 缓存 空间 一 定 的 情况 下 ，Way 越 多 ， 每 个 
Way 里 的 行 数 就 必须 越 少 ， 倒 头 来 还 会 影响 命中 率 。 


所 以 最 终 设计 都 是 根据 当时 所 处 时 代 的 典型 程序 代码 
分 析 之 后 ， 反 映 到 硬件 设计 之 后 权衡 的 结果 。 

直接 关联 本 质 上 等 价 于 1 路 组 关联 。 另 外 ， 不 仅 
仅 是 缓存 和 RAM 之 间 广 泛 使 用 了 多 路 组 关联 模式 ， 就 
连 各 级 缓存 之 间 也 都 是 普遍 使 用 多 路 组 关联 模式 映射 
的 。 比 如 L2 缓存 控制 器 中 的 某 行 数据 也 只 能 被 放 到 
11 缓存 控制 器 中 的 固定 位 置 。 

多 路 组 关联 设计 方式 下 ， 缓 存 控制 器 每 收 到 一 个 
请 求 ， 就 会 并 行 地 去 所 有 Way 中 将 每 个 Way 中 同一 个 
行 号 的 Tag 都 读 出 来 ， 然 后 与 请 求 中 的 行 号 做 比较 ， 
看 看 是 命中 在 哪个 Way 里 ， 再 通过 控制 对 应 的 Mux/ 
Demux 将 数据 读 出 或 者 写 入 。 图 6-19 为 冬瓜 哥 花 了 几 
个 小 时 炮制 的 2 路 组 关联 缓存 的 硬件 架构 示意 图 。 

电路 越 庞 大 ， 运 行 的 频率 就 越 低 ， 即 便 其 中 可 以 
存在 一 些 并 行 执行 的 单元 ， 但 是 在 一 定 功 耗 下 ， 单 元 
越 多 ， 每 个 单元 从 电源 分 得 的 电流 就 越 小 ， 自 然 导 致 
向 导线 中 充 放 电 到 目标 电压 从 而 驱动 逻辑 门 开 合 的 速 
度 变 慢 ， 时 钟 频率 就 得 跟着 降低 。 另 外 ， 多 个 单元 之 
间 虽 然 并 行 操作 ， 但 是 这 可 能 会 增加 其 他 单元 的 复杂 
度 。 比 如 1 个 Way 时 〔〈 等 同 于 直接 映射 ) ， 从 SDRAM 
提 上 来 的 缓存 行 只 能 落 入 一 个 地 方 ， 无 其 他 可 选 ; 
而 多 个 Way 的 时 候 ， 就 有 多 个 地 方 可 选 ， 到 哪里 都 可 
以 。 那 么 具体 放 到 哪里 好 ? 这 里 又 需要 考虑 更 多 问 
题 ， 比 如 如 果 将 很 常用 的 行 替换 掉 ， 反 而 降低 了 命中 
率 ， 这 里 面 的 一 些 替换 策略 我 们 下 面 再 介绍 。 所 以 ， 
这 些 替 换 策略 选择 模块 也 会 随 之 变 得 复杂 ， 从 而 反 过 
头 来 制约 着 时 钟 频率 。 

所 以 ， 多 个 Way 的 设计 能 够 降低 冲突 ， 增 加 命中 率 ， 
但 是 却 可 能 会 在 其 他 环节 又 让 命中 率 降低 ， 甚 至 影响 到 
时 钟 频率 。 所 有 因素 到 底 哪 一 个 对 性 能 影响 更 大 ? 这 又 
是 一 个 很 难 权衡 的 问题 了 ， 不 同 的 CPU 的 设计 各 不 相同 。 

另外 上 面 这 种 2 个 Way 并 行 查找 的 方式 ， 会 浪费 
50% 的 能 源 ， 因 为 其 中 一 个 Way 一 定 不 命中 ， 但 是 必 
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须 将 所 有 Way 中 的 对 应 行 号 的 数据 都 选 出 来 输送 到 从 而 输出 对 应 的 电压 ， 这 就 是 动态 功 耗 。 如 果 不 读 取 
Mux 从 而 等 待 被 选 出 。 如 果 能 够 先 查 出 来 某 个 地 址 命 ” 它 ， 开 关 关闭 ， 对 应 的 bitline 就 不 会 被 充 放电 ， 只 维 
中 在 哪个 Way， 第 二 步 只 从 该 Way 读 出 数据 ， 另 一 个 ”持原 来 的 电压 ， 并 存在 一 定 的 微小 漏电 流 ， 这 就 是 静 
Way 保持 状态 不 变 ， 这 样 就 可 以 节省 功 耗 。 可 以 回顾 SWH. 

一 下 第 3 章 中 的 SRAM 电 路 结构 ， 只 要 控制 读 写 的 开 于 是 ， 有 些 设 计 采 用 了 冬瓜 哥 又 花 了 2 个 小 时 雕 
关 打开 了 ，bitline 就 会 在 逻辑 的 驱动 下 进行 充 放 电 ， 琢 而 成 的 图 6-20 所 示 的 方式 。 将 Tag 部 分 拿 出 来 放 到 
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图 6-19 2 路 组 关联 缓存 的 硬件 架构 示意 图 (Hit: 命中 ; WE: 写 使 能 》 


图 6-20 分 两 步 访问 多 路 组 关联 缓存 节省 功 耗 


一 片 单独 的 SRAM 阵 列 中 ， 与 Data 部 分 分 离 ， 从 而 形 
成 单独 的 Tag Array 和 单独 的 Data Array。Tag、Dirty、 
Invalid 这 些 用 于 描述 实际 数据 内 容 属 性 的 数据 被 称 为 
元 数据 (Metadata) 。 

对 于 一 个 访 存 地 址 ， 在 第 一 个 时 钟 周期 内 ， 先 
从 Tag Array 中 读 出 Index 字 段 所 索引 的 行 然 后 做 Tag 比 
对 ， 如 果 命 中 ， 则 将 命中 信号 输送 到 流水 线 中 间 寄 存 
器 中 暂 存 ， 同 时 也 将 Offset 信 号 输送 到 中 间 寄 存 器 。 
在 第 二 个 时 钟 周期 内 ，Data Array 读 写 控制 逻辑 判断 
Hit 信 号 是 否 为 1， 如 果 为 1 则 再 根据 匹配 控制 逻辑 输 
送 过 来 的 上 一 步 判 断 出 的 所 命中 的 Way 号 ， 到 对 应 的 
Way 中 将 数据 读 出 ， 然 后 在 Offset 字 段 的 控制 下 ， 将 上 
游 所 需 的 字 节 提出 输送 到 读 出 数据 寄存 器 。 

但 是 很 显然 ， 这 样 做 增加 了 时 延 ， 本 来 一 步 就 
可 以 完成 的 事情 ， 变 成 了 两 步 。 想 一 下 ， 如 果 能 够 
用 某 种 预测 方法 来 预测 出 某 个 访 存 请 求 会 命中 在 哪 
个 Way， 然 后 直接 在 第 一 步 的 时 候 依然 同时 比较 所 
有 Way 的 对 应 Index 定 位 的 那 行 的 Tag， 在 同一 个 周期 
内 ， 只 读 出 预测 将 要 命中 的 那个 Way 中 对 应 的 数据 。 
一 旦 猜 对 ， 第 二 步 读 数据 的 过 程 就 可 以 省 了 ， 缓 存 控 
制 器 直接 就 可 以 将 读 出 的 数据 送 往 上 游 总 线 了 。 这 样 
既 可 以 保证 速度 ， 又 可 以 避免 并 行 读 出 所 有 Way 中 对 
应 行 号 的 数据 ， 节 省 功 耗 。 但 是 如 果 猜 错 了 ， 大 不 了 
就 用 第 一 步 匹配 出 来 的 Way 号 〈 第 一 步 中 哪个 Way 报 
告 了 Hit) 再 去 相应 的 路 将 数据 读 出 ;也 就 是 说 ， 即 
便 猜 错 了 也 最 多 会 读 两 次 Way， 而 不 是 读 所 有 Way。 
这 种 方式 被 称 为 路 预测 (way prediction) 。 怎 么 提升 
猜 准 率 呢 ? 那 还 得 翻 回去 看 第 4 章 中 关于 分 支 预测 的 
介绍 ， 其 中 提 到 了 多 种 分 支 预测 方法 ， 它 们 同样 适 
用 于 Way Pridiction。 如 果 记录 一 个 PHT， 用 访 存 地 址 
的 Index 作 为 索引 ， 所 有 拥有 该 Index 的 访 存 地 址 共享 
PHT 中 同一 行 用 来 存储 上 一 次 命中 的 Way 号 ， 下 次 访 
问 就 预测 为 该 Way 号 。 经 过 实测 这 种 方法 的 命中 率 能 
达到 80% 以 上 。 

可 以 将 一 个 庞大 电路 分 拆 成 多 个 小 步骤 形成 流水 
线 ， 从 而 提升 频率 ， 增 加 吞吐 量 ， 这 在 第 4 章 中 已 经 
介绍 过 了 。 那 么 ， 除 了 上 面 的 两 步 + 预测 方式 之 外 ， 
还 可 以 将 多 个 Way 排 布 成 流水 线 ， 这 样 可 以 同时 处 理 
多 个 访 存 请 求 ， 依 然 保持 了 并 行 查找 的 优势 。 但 是 ， 


图 6-21 4 路 组 关联 流水 线 查 找 示意 


第 6 章 ”多 处 理 器 微 体系 结构 一 一 多 核心 与 缓 人 存量 有 和 


与 单个 访 存 请 求 独占 所 有 Way 一 起 找 而 最 终 只 会 在 某 
个 Way 命中 的 霸道 方式 不 同 的 是 ， 流 水 线 化 之 后 ， 同 
一 时 刻下 ， 多 个 访 存 请 求 的 每 一 个 各 自 独占 多 个 Way 
中 的 一 个 来 查找 ， 有 些 请 求 可 能 在 查找 第 一 个 Way 的 
时 候 就 命中 了 ， 那 就 不 用 去 后 续 的 Way 查找 了 ， 后 续 
的 Way 就 可 以 得 到 休息 〈 流 水 线 寄存 器 中 的 内 容 保 持 
不 变 ， 电 路 状态 不 变 ， 没 有 动态 电流 流 过 ， 只 有 静态 
漏电 路 功 耗 》， 从 而 降低 了 功 耗 或 者 反 过 来 可 以 选择 
提升 频率 。 当 然 ， 如 果 不 巧 ， 每 个 请 求 都 到 查 到 最 后 
一 个 Way 时 才 命中 ， 那 么 整体 功 耗 就 会 比较 高 ， 功 耗 
一 定 则 频率 就 得 设计 得 比较 低 ， 所 以 ， 具 体 还 得 根据 
平均 命中 概率 来 做 设计 取舍 ， 如 图 6-21 所 示 。 


为 了 对 程序 保持 透明 ， 核 心 到 L1 缓 存 之 间 的 
访问 方式 必须 是 以 字 节 为 粒度 的 ， 并 且 可 以 是 任意 
起 始 地 址 和 字 节 长 度 ， 当 然 有 个 最 大 长 度 ， 核 心 内 
部 数据 寄存 器 是 64 位 ，8 字 节 ， 因 此 核心 就 不 可 能 
发 出 大 于 8 字 节 的 长 度 。 但 是 L1 缓 存 内 部 最 小 管理 
单位 是 一 行 ， 如 果 核 心 发 出 的 起 始 地 址 + 长 度 信号 
所 描述 的 字 节 范围 跨越 了 两 行 呢 ? 那 就 得 读 出 或 者 
写 入 这 两 行 ， 然 后 将 核心 所 需 的 字 节 提取 出 来 ， 再 
从 总 线 发 出 去 给 核心 ， 产 生 了 读 写 惩罚 从 而 降低 性 
能 。L1 缓 存 与 L2 缓 存 之 间 的 访问 方式 则 是 以 缓存 行 
为 粒度 的 ， 而 且 不 会 有 惩罚 发 生 。L2 缓 存 、L3 缓 存 、 
SDRAM 之 间 都 是 以 缓存 行为 粒度 来 读 写 数据 的 。 


6.2.9 用 虚拟 地 址 查 缓存 


现在 开始 思考 一 个 问题 。 上 一 章 中 我 们 说 过 ， 
CPU 核心 取 指 单元 发 出 的 都 是 虚拟 地 址 。CPU 内 部 
的 MMU 会 负责 将 虚拟 地 址 转换 为 物理 地 址 ， 而 缓存 
中 的 Tag 则 是 物理 地 址 ， 那 就 意味 着 FF、L/S 单 元 发 出 
的 请 求 要 先 经 过 MMU 转 换 成 虚拟 地 址 。 如 上 一 章 所 
述 ， 在 虚实 地 址 转换 这 一 步 中 本 身 就 可 能 要 去 访问 
SDRAM 中 所 存储 的 页 表 ， 而 访问 SDRAM 相 对 于 访 
问 缓存 是 非常 慢 的 ， 这 就 令 人 哭笑不得 了 ， 为 了 访问 
一 个 快 的 必须 先 访问 一 个 慢 的。 当然 ，MMU 自 己 会 
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维护 一 个 专门 用 于 存放 页 表 中 条 目的 缓存 来 加 速 地 
址 翻译 过 程 ， 这 个 缓存 称 为 页 表 项 缓存 (Translation 
Lookaside Buffer，TLB 缓 存在 计算 机 历史 上 的 出 现时 
间 早 于 L1 数 据 缓存 ) 。TLB 并 不 比 L1 缓 存 更 快 ， 而 且 
也 有 可 能 出 现 不 命中 而 必须 访问 SDRAM 的 情况 ， 更 
可 怕 的 是 对 应 的 页 面 还 尚未 被 内 存 管理 程序 分 配 好 ， 此 
时 会 产生 Page Fault 〈 缺 页 ) ， 则 CPU 会 跳 转 到 缺 页 管理 
程序 去 运行 并 分 配 这 个 页 面 ， 这 就 会 耗费 更 多 的 时 间 。 
解决 办 法 似乎 只 有 一 个 ， 那 就 是 在 物理 地 址 还 
没有 查 到 之 前 ， 直 接 先 用 虚拟 地 址 而 不 是 物理 地 址 
来 匹配 缓存 行 。 具 体 如 何 实现 呢 ? 假设 L1 缓 存 大 小 
为 32KB， 缓 存 行 大 小 为 64 字 节 ， 这 也 是 当前 CPU 的 
普遍 规格 ， 这 就 可 以 算出 来 ， 缓 存 共 包 含 512 个 缓存 
17. 假设 ， 采 用 8 路 设计 ， 每 一 路 分 得 64 行 ， 也 就 是 
需要 6 位 的 Index (还 记得 上 文中 的 介绍 么 ， 用 收 到 地 
址 的 Index 字 段 来 定位 到 行 号 ) 。 而 每 个 缓存 行 有 64 字 
节 ， 那 么 需要 6 位 的 Offset 来 定位 行内 的 某 个 字 节 。 这 
样 ，Index 和 Offset 共 12 位 。 
假设 内 存 管理 程序 按照 4KB 来 分 页 ， 这 4KB 空 间 
也 可 以 用 12 位 来 寻 址 。 或 许 ， 你 已 经 看 出 了 一 些 端 
倪 。 内 存 管理 程序 是 按照 4KB 为 一 个 粒度 分 配 的 ， 即 
虚拟 地 址 空间 中 的 某 个 4KB 会 被 映射 到 物理 地 址 空间 
中 的 某 个 4KB， 但 是 不 管 是 虚拟 空间 还 是 物理 空间 里 
的 这 4KB 内 部 的 字 节 都 会 按照 相同 的 偏 移 量 排 布 ， 即 
对 于 一 个 虚拟 地 址 及 其 被 映射 到 的 物理 地 址 而 言 ， 
用 来 寻 址 这 4KB 内 部 的 这 12 位 是 相同 的 。 例 如 ， 对 于 
一 个 32 位 的 虚拟 地 址 10101001 01010001 01010111 
01010011， 不 管 它 被 放 在 了 哪个 物理 地 址 上 ， 
其 最 终 的 物理 地 址 一 定 会 是 : XXXXXXXX XXXXXXXX 
xxxx0111 01010011， 最 后 12 位 不 会 变 ， 变 的 只 是 高 
20 位 。 这 20 位 描述 了 该 地 址 属于 哪个 物理 的 4KB 块 〈 物 
理 页 ) ，32 位 地 址 空间 内 一 共有 22 个 物理 页 /虚拟 页 。 
既然 这 样 ， 根 本 就 不 需要 等 待 MMU 翻 译 出 物 
理 地 址 之 后 再 去 匹配 缓存 了 。 在 上 面 的 例子 中 ， 每 
一 路 有 64 行 ， 每 一 行 有 64 字 节 ， 所 以 这 12 位 0111 
01010011 的 左边 6 位 就 是 Index 011101， 后 面 6 位 就 
是 Offset 010011， 直 接 用 虚拟 地 址 中 的 Index 去 读 出 对 
应 行 号 的 对 应 Tag 即 可 。 但 是 ， 是 否 命中 其 实 还 取决 
于 Tag，Tag 一 样 才 算 命中 。 而 在 MMU 还 没有 翻译 出 
物理 地 址 的 时 候 ， 缓 存 控制 器 不 会 知道 该 虚拟 地 址 的 
Tag 段 的 20 位 对 应 的 物理 地 址 的 20 位 是 多 少 。 不 过 幸 
好 ， 当 缓存 控制 器 用 虚拟 地 址 Index 从 某 个 Way (或 者 
所 有 路 ， 取 决 于 具体 设计 ) 读 出 对 应 行 的 Tag 的 期 间 ， 
MMU 也 会 并 行 地 执行 完成 地 址 翻译 〈 如 果 命中 TLB 的 
话 ) ， 这 样 ， 在 下 一 个 时 钟 周期 内 就 可 以 用 MMU 给 出 
的 20 位 的 Tag 与 读 出 的 Tag 进 行 比 对 了 。 所 以 ， 使 用 虚 
拟 地 址 低 12 位 直接 作为 Index 可 以 节省 一 个 时 钟 周期 。 
上 述 这 种 使 用 虚拟 地 址 来 查 Index， 物 理 地 址 来 
查 Tag 的 缓存 查找 方式 ， 被 称 为 VIPT (Virtual Index 
Physical Tag) 。 同 理 ， 之 前 的 传统 方式 则 是 PIPT。 人 
们 将 VIPT 模 式 的 缓存 俗称 为 Virtual Cache， 但 是 切 勿 


将 其 翻译 成 中 文 “ 虚 拟 缓存 ”， 那 可 完全 是 两 码 事 。 

总 结 一 下 。 第 一 ， 由 于 页 面 为 映射 最 小 单位 ， 所 
以 任何 虚拟 地 址 和 其 对 应 的 物理 地 址 的 低 (log, 页 面 
容量 ) 位 是 相同 的 ， 如 果 精 确 调节 缓存 容量 、Way 的 
数量 ， 使 得 地 址 的 Index+Offset 的 位 数 小 于 等 于 (log; 
页 面容 量 ) ， 那 么 就 可 以 直接 用 虚拟 地 址 来 做 第 一 次 
匹配 。 第 二 ，L1 缓 存 控制 器 在 存 入 缓存 行 数据 时 会 根 
据 对 应 缓存 行 虚拟 地 址 的 Index 段 算出 该 缓存 行 必须 
落 入 第 几 行 中 ， 并 且 根 据 策略 〈 随 机 、 其 他 ) 选择 一 
个 未 被 占用 的 Way 的 对 应 行将 其 存 入 ， 如 果 没 有 空 行 
(状态 为 Invalid 的 行 ) 则 强行 挤占 一 行 ， 原 来 的 数据 
或 直接 被 覆盖 〈 如 果 Dirty 位 被 置 0) 或 写 回 到 SDRAM 
(如 果 Dirty 位 被 置 1) 。 第 三 ， 读 出 数据 时 ， 根 据 虚 
拟 地 址 的 Index 到 某 个 Way 或 者 所 有 路 (具体 策略 见 上 
Ж) 读 出 对 应 行 的 Tag 比 对 以 决定 是 否 命中 ， 如 果 不 命 
中 ， 则 拿 着 MMU 已 经 翻译 出 来 的 物理 地 址 再 去 下 一 级 
缓存 找 数据 (下 一 级 缓存 可 能 也 是 VIPT 模 式 ， 也 可 能 
不 是 ， 但 是 SDRAM 一 定 是 只 认 物 理 地 址 的 ) 。 第 四 ， 
同一 缓存 行 中 的 所 有 字 节 的 地 址 的 Index 段 是 相同 的 ， 
但 是 Index 相 同 的 两 个 或 者 几 个 地 址 不 一 定 表示 其 处 于 
同一 缓存 行 ， 因 为 高 位 的 Tag 可 能 不 同 ， 仅 当 Tag 也 相 
同时 才 表 明 这 两 个 或 者 几 个 地 址 处 于 同一 缓存 行 。 

可 以 感觉 到 存在 一 个 明显 的 约束 条 件 ， 那 就 
是 地 址 的 Index+Offset 的 位 数 必须 小 于 等 于 (log, 
页 面容 量 ) 。 上 文中 冬瓜 哥 故 意 设 定 了 一 个 特 
例 ， 让 Index+Offset 为 12 位 。 那 么 如 果 缓 存 大 小 为 
256KB， 缓 存 行为 64 字 节 ， 且 为 8 Way 组 关联 呢 ? 
可 以 算 一 下 ， 共 4096 个 行 ， 每 个 Way 分 得 512 行 ， 则 
Index=Logs512=9，Offset 不 变 依然 是 6 位 。 超 出 了 12 
位 ， 用 虚拟 地 址 的 话 只 能 保证 6 位 与 物理 地 址 相同 。 
但 是 如 果 把 Way 数 量 增加 到 64， 那 么 每 一 路 分 得 64 
行 ， 则 Index=Log,64=6， 可 以 满足 条 件 ， 但 是 失去 了 
可 行 性 ，Way 太 多 了 。 

缓存 容量 、Way 数 量 、 页 面容 量 ， 这 三 者 共同 决 
定 了 Index+Offset 的 位 数 是 否 与 〈log: 页 面容 量 ) 匹 
配 ， 这 三 个 参数 之 间 此 消 彼 长 ， 具 体 如 何 均衡 就 看 具 
体 设计 了 。 为 什么 与 缓存 行 容量 无 关 呢 ? 大 家 可 以 自 
己 算出 这 么 一 个 公式 出 来 : log:[Co(CrQw]+LogzCr 
= Log,C/Qy < Гор,Сь, ЖЕТ: Co/Qw < Ce。 其 中 
Cc 表示 缓存 容量 (capacity cache) ，Cr 表 示 缓 存 行 
容量 (capacity line) ，Qw 表 示 Way 的 数量 (quantity 
way) ，Cp 表 示 页 面容 量 (capacity page) 也 就 是 ， 可 
以 看 到 Cr 被 约 掉 了 。 结 论 则 是 : 每 个 Way 的 容量 不 能 
超过 页 面 大 小 。 当 然 ， 如 果 Way 容 量 大 于 页 面容 量 也 
不 是 不 可 以 ， 但 是 会 带 来 潜在 的 问题 需要 解决 ， 详 见 
6.2.12 页 面 着 色 一 节 。 

图 6-22 为 Intel 某 CPU 内 部 访 存 模块 架构 示意 
图 ， 其 L/S 单元 与 L1 缓 存 之 间 采 用 了 VIPT 方 式 ， 
32KB/8Way=4K/Way， 符 合 了 上 述 条 件 。 但 是 其 L2 缓 存 
并 没有 使 用 VIPT 模 式 ， 而 是 PIPT 模 式 ( 因 为 此 时 MMU 
早已 查 出 了 物理 地 址 ) ， 所 以 并 不 需要 遵循 上 述 条 件 。 


Sandy Bridge 


6-22 Intel 某 CPU 内 部 访 存 模块 架构 示意 图 


VIPT 这 是 由 Intel 的 Wen-Han Wang 在 1990 年 提出 
的 ， 现 代 处 理 器 的 L1 缓 存 几乎 普遍 采用 了 这 种 方式 。 
PIPT 模 式 相 比 之 下 需要 多 等 一 个 时 钟 周期 ， 好 处 则 是 
没有 上 述 的 限制 ，Way 的 容量 可 大 可 小 ， 非 常 灵活 。 

那么 是 否 可 以 采用 VIVT 模 式 呢 ? 查询 起 来 ， 
VIVT 比 VIPT 更 快 ， 因 为 连 等 待 MMU 给 出 物理 Tag 都 
不 用 了 ， 在 第 一 个 周期 就 可 以 判定 是 否 命中 ， 如 果 第 
一 个 周期 内 连同 数据 也 一 同 从 路 中 读 出 的 话 ， 那 么 一 
个 周期 即 可 给 出 数据 〈 不 算数 据 进出 总 线 所 需要 的 周 
期 ) 。 既 然 VIVT 这 么 好 ， 为 什么 没有 被 广泛 应 用 成 为 
主流 选择 呢 ? 这 就 要 说 到 同名 (homonym) 问题 了 。 

PIPT、VIPT、VIVT 这 些 缓存 模式 的 一 个 前 提 
是 缓存 采用 直接 关联 ( 1 路 组 关联 ) 或 者 组 关联 (Ж 


指 多 路 组 关联 ) 模式 ， 这 才 存 在 Index 和 Tag 一 说 。 
对 于 全 关联 ( 任意 关联 ) 是 不 用 Index 来 定位 的 。 


6.2.10 ”缓存 的 同名 问题 


VIVT 的 缓存 有 个 问题 需要 解决 ， 即 不 同 进程 的 
代码 可 能 会 发 出 相同 的 虚拟 地 址 访 存 请 求 ， 而 这 些 虚 
拟 地 址 对 应 的 物理 地 址 是 不 同 的 〈 也 可 能 相同 ， 见 下 
一 节 ) ， 因 为 每 个 进程 各 自 有 一 套 独立 的 页 表 追 踪 着 
各 自 的 虚拟 到 物理 的 映射 关系 。 此 时 如 果 不 作 处 理 ， 
缓存 控制 器 就 会 发 生 误 判 ， 导 致 逻辑 错误 ， 比 如 进程 
1 的 虚拟 地 址 A 对 应 物理 地 址 a，a 中 的 数据 已 经 进入 
了 缓存 某 行 中 ， 而 进程 2 此 时 也 发 出 同一 个 虚拟 地 址 
A 的 访 存 请 求 ， 进 程 2 的 虚拟 地 址 A 对 应 的 物理 地 址 为 
b， 其 内 容 与 地 址 a 里 的 完全 不 同 ， 但 是 缓存 控制 器 只 
根据 虚拟 地 址 来 做 匹配 ， 完 全 不 看 MMU 查 出 的 物理 
地 址 是 否 一 样 ， 所 以 导致 误 判 认为 进程 2 的 访 存 命中 
了 ， 进 程 2 拿 到 了 错误 的 数据 。 

一 个 解决 办 法 就 是 在 切换 进程 之 前 将 缓存 脏 数据 
全 部 写 回 内存 ， 然 后 再 全 部 清空 ， 这 样 ， 新 的 进程 访 
存 时 全 都 不 命中 ， 缓 存 控制 器 就 只 能 拿 MMU 查 出 的 
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物理 地 址 去 访问 后 一 级 缓存 ， 从 而 得 到 正确 的 数据 。 
具体 做 法 是 ， 进 程 切换 之 前 ， 负 责 管理 线程 切换 程 
序 主动 执行 缓存 刷 回 指令 ， 从 而 将 当前 所 有 的 Dirty 
的 缓存 行 写 回 到 SDRAM 内 存 ， 保 存 上 一 个 进程 的 所 
有 数据 ， 然 后 再 进行 作废 (Invalid) 所 有 缓存 行 的 
动作 ， 切 换 到 另 一 个 进程 的 某 个 线程 。Intel x86 CPU 
的 CLWB (Cache Line Write Back) 指令 以 及 INVD 
(Invalid) 指令 做 的 就 是 上 述 两 步 动作 。 这 样 ， 每 次 
切换 进程 上 下 文 (contex) 会 带 来 性 能 上 的 损失 。 

当 VIVT 缓 存 用 在 超 线程 场景 下 ， 问 题 就 更 加 复杂 
了 。 开 启 了 超 线程 的 核心 可 以 同时 运行 多 个 线程 ， 如 
果 这 多 个 线程 分 属 不 同 的 进程 ， 那 么 多 个 逻辑 核心 在 
一 段 时 间 内 就 可 能 交织 穿插 地 发 出 对 同一 个 虚拟 地 址 
的 访 存 请 求 。 如 果 是 SMT 模 式 ， 则 同一 时 刻 可 能 会 出 
现 两 个 相同 的 虚拟 地 址 访 存 请 求 被 发 出 ， 这 就 不 是 上 
面 那 种 办 法 能 解决 的 了 。 此 时 ， 必 须 对 每 个 缓存 行 加 
以 区 分 ， 判 断 其 缓存 的 到 底 是 哪个 进程 的 数据 ， 这 需 
要 在 元 数据 中 增加 一 列 ASID (Address Space ID) 用 
于 区 分 当前 要 匹配 的 缓存 行 属于 哪个 进程 〈 每 个 进程 
都 运行 在 一 个 虚拟 的 Address Space 中 ) ， 再 根据 当前 
正在 运行 的 进程 ID 判断 该 怎么 做 : 如 果 ID 不 同 则 直 
接 判 断 为 不 命中 ，ID 相 同 则 再 看 匹配 结果 。 这 种 做 法 
看 上 去 档次 更 高 ， 也 避免 了 清空 缓存 ， 但 是 也 更 复杂 ， 
成 本 更 高 。 对 于 不 支持 超 线程 的 CPU， 可 以 选择 上 面 那 
种 方式 ， 但 是 需要 内 存 管 理 程序 模块 的 感知 和 配合 。 

如 果 VIVT 模 式 的 缓存 被 多 个 核心 共享 ， 此 时 不 
管 核心 是 否 开 启 了 超 线 程 ， 都 只 能 用 ASID 的 模式 ， 
因为 多 个 核心 会 同时 穿插 向 缓存 发 起 访 存 请 求 。 而 一 
般 只 有 L2 及 后 续 级 的 缓存 才 会 被 多 核心 共享 ， 此 时 
物理 地 址 早已 被 MMU 查 出 ， 所 以 完全 没有 必要 使 用 
VIVT 模 式 。 

上 述 由 于 多 个 进程 地 址 空间 重合 (overlap〉 导 致 
的 问题 被 称 为 缓存 的 同名 (homonym) 问题 ， 有 人 
又 称 之 为 ambiguity 问 题 。 抽 象 来 讲 ， 就 是 “同一 个 
虚拟 地 址 可 能 会 被 映射 到 不 同 的 物理 地 址 ”。 这 是 采 
用 虚拟 地 址 Tag 缓 存 的 一 个 不 可 避免 的 问题 。 如 果 使 
用 物理 地 址 作为 Tag〈 比 如 VIPT) 则 不 会 出 现 误 判 的 
问题 ， 因 为 读 出 该 行 Tag 之 后 会 发 现 其 与 MMU 给 出 的 
Tag 不 一 样 ， 从 而 不 会 被 误 判 ， 而 VIVT 则 直接 用 虚拟 
地 址 当 作 Tag， 完 全 不 理会 MMU 查 出 的 物理 地 址 ， 这 
就 是 问题 所 在 。 

最 终 需 要 设计 上 的 权衡 取舍 ， 所 以 VIVT 模 式 的 
缓存 鲜 有 产品 使 用 。 


6.2.11 ”缓存 的 别名 问题 


上 面 说 的 是 “同一 个 虚拟 地 址 可 能 会 被 映射 到 不 
同 的 物理 地 址 ”， 那 么 “同一 个 物理 地 址 可 能 会 被 映 
射 到 不 同 的 虚拟 地 址 ”的 场景 是 否 存在 呢 ? 存在 ! 内 
存 管理 程序 可 能 会 将 同一 个 物理 地 址 映射 给 不 同 的 虚 
拟 地 址 ， 比 如 多 个 不 同 的 进程 需要 共享 和 传递 数据 ， 
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内 存 管 理 程序 可 以 直接 将 虚拟 页 A 和 B 都 映射 到 物理 
页 1， 这 样 两 个 进程 就 可 以 同时 访问 物理 页 1， 或 者 利用 
物理 页 1 来 传递 数据 ， 比 如 进程 a 写 入 一 些 数据 ， 进 程 b 再 
来 这 里 读 走 。 这 也 就 是 进程 间 共 享 内 存 通信 的 场景 。 

这 种 情况 下 对 PIPT 的 缓存 依然 没有 任何 问题 ， 不 
管 有 多 少 个 虚拟 地 址 指向 该 物理 地 址 ， 其 内 容 总 会 被 
定位 到 单个 固定 位 置 ， 也 不 会 被 误 判 。 

对 于 VIVT 缓 存 ， 两 个 Index 不 同 的 虚拟 地 址 会 被 
存储 到 不 同 的 缓存 行 中 ， 而 其 对 应 的 物理 地 址 相同 ， 
数据 内 容 相 同 ， 但 是 缓存 控制 器 并 不 知道 这 一 点 ， 
导致 一 份 内 容 被 放 到 了 两 个 缓存 行 中 ， 导 致 一 致 性 
问题 。 所 以 ，VIVT 的 缓存 只 有 在 不 开启 超 线程 且 不 
作为 多 核心 共享 缓存 的 情况 下 ， 外 加 在 线程 切换 管 
理 程序 的 配合 〈 每 次 进程 切换 就 清空 缓存 ) 的 情况 
下 ， 才 可 以 支持 一 个 物理 地 址 对 应 多 个 虚拟 地 址 。 


超 线程 的 具体 硬件 实现 方式 有 很 多 ， 比 如 其 中 
一 种 是 直接 为 每 个 线程 的 指令 打上 标签 ， 这 样 流水 
线 就 可 以 区 分 混 起 来 的 指令 以 便 判 断 相关 性 ， 标 
签 不 同 的 则 毫 不 相关 ， 可 以 乱 序 并 发 执行 。 对 于 缓 
存 ， 则 可 以 直接 切 开 为 多 份 分 块 ， 每 份 只 能 缓存 
某 个 在 执行 进程 地 址 空间 的 数据 ， 不 再 是 共享 缓 
存 。 这 样 就 可 以 利用 清空 缓存 的 方式 来 避免 别名 问 
题 ， 但 是 硬件 会 保证 只 清空 对 应 的 那 份 缓存 分 块 。 


或 者 ， 内 存 管理 程序 如 果 要 将 多 个 虚拟 页 映射 


到 同一 个 物理 页 ， 那 么 其 可 以 在 对 应 虚拟 页 的 描述 信 
息 中 给 出 “该 页 不 能 被 缓存 ”的 提示 ， 也 就 是 设置 某 
个 控制 位 。CPU 的 MMU 在 读 入 页 面 数据 的 时 候 会 检 
查 该 位 从 而 决定 是 否 缓存 之 ， 这 样 就 可 以 避免 上 述 问 
题 。 这 种 由 于 同一 个 虚拟 地 址 可 能 会 被 映射 到 不 同 的 
物理 地 址 而 导致 的 数据 一 致 性 问题 ， 被 称 为 缓存 的 别 
名 (alias) 问题 。 

VIPT 的 缓存 比较 复杂 ， 需 要 分 四 种 情况 单独 分 
析 。 假 设 地 址 空间 为 32 位 ， 页 面 4KB， 缓 存 行 64 字 节 。 

а) 当 只 有 一 个 Way 等 价 于 直接 相连 ) 且 Way 
容量 小 于 等 于 页 面 (一般 为 4KB) 容量 时 。 

如 图 6-23 所 示 。 当 满足 Way 小 于 页 面容 量 4KB 的 
约束 条 件 后 ， 虚 拟 地 址 的 低 12 位 与 翻译 出 来 的 物理 地 
址 相同 ， 由 于 两 个 虚拟 地 址 映射 到 同一 个 物理 地 址 ， 
那么 虚拟 地 址 A 和 B 的 低 12 位 也 就 相同 ， 那 就 意味 着 
用 虚拟 地 址 做 Index 之 后 ， 这 两 个 地 址 会 被 定位 到 Way 
的 同一 个 物理 行 上 ， 并 且 由 于 MMU 查 出 来 的 物理 Tag 
也 相同 ， 任 何 一 个 进程 之 前 如 果 访 问 过 该 行 ， 那 么 另 
一 个 进程 再 访问 时 会 被 判断 为 命中 ， 此 时 不 会 产生 误 
判 ， 没 有 问题 。 

(2) 当 有 多 个 Way 且 Way 容 量 小 于 等 于 页 面容 
量 时 。 

如 图 6-24 所 示 ， 如 果 缓存 设置 了 多 个 Way， 但 是 每 
个 Way 依 然 是 不 超过 4KB， 那 么 这 两 个 虚拟 地 址 指向 
的 数据 依然 会 被 存放 在 Way#1 中 的 同一 行 ， 不 可 能 跑 
到 Way 所 去， 因为 它 俩 的 Index 相 同 ， 查 出 的 物理 地 址 
Tag 也 相同 ， 缓 存 控 制 器 会 判定 为 命中 ， 不 会 有 问题 。 


国 例 : C] rz 
[1 "чеке акв 4 
< 一 一 物理 地 址 1 所 在 的 行 
[C] обема 
И 缓存 
图 6-23 ”Way 容量 小 于 等 于 4KB 时 的 Index/Offset/Tag 
sweta [1[о0]1]1]1]о]1]1]о]1 


mee [1 о1о 


рр [то 


图 例 : [] тад 
E Index 位 
口 Offset 位 


缓存 Way#0 


4KB 4KB 
<— 物理 地 址 1 所 在 的 行 


缓存 Way#1 


图 6-24 ”2 路 组 关联 且 Way 容 量 小 于 等 于 4KB 时 的 Index/Offset/Tag 


(з) 当 只 有 一 个 Way 上 且 Way 容量 大 于 页 面容 量 时 。 

如 图 6-25 所 示 。 假 设 缓存 大 小 变 为 了 16KB， 容 纳 
的 缓存 行 数 量变 为 256 个 ， 需 要 Log256=8 位 的 Index 
来 描述 ， 多 出 来 的 2 位 将 缓存 切 分 为 4 个 4KB。 当 用 虚 
拟 地 址 A 或 者 C 访 存 时 ， 由 于 这 两 个 虚拟 地 址 的 Index 
位 完全 相同 ， 所 以 会 被 定位 到 同一 行 上 ， 加 之 这 两 个 
虚拟 地 址 (virtual address, МА) 指向 同一 个 物理 地 址 
(physical address, РА) ， 其 查 出 来 的 Tag 也 是 相同 
的 ， 所 以 虚拟 地 址 A 和 C 共 用 同一 行 ， 对 应 的 物理 地 
址 内 容 只 有 一 个 副本 ， 不 会 有 问题 。 

但 是 如 果 虚 拟 地 址 B 也 指向 该 物理 地 址 ， 而 B 的 
Index 位 中 的 左边 两 位 与 A 和 C 不 同 ， 那 么 其 会 被 索引 
到 另 一 行 上 ， 由 于 其 指向 同一 个 物理 地 址 ， 则 该 物理 
地 址 的 内 容 就 会 再 次 被 缓存 到 这 个 新 行 上 ， 产 生 了 两 
个 副本 ， 导 致 不 一 致 。 可 推出 这 样 一 个 结论 : 对 于 
VIPT 缓 存 ， 如 果 虚 拟 地 址 的 Index 的 位 数 相 比 (Log， 
页 面容 量 ) 超出 了 nn 位， 那么 同一 个 物理 地 址 的 内 容 
就 有 可 能 被 缓存 2" 个 副本 。 

这 位 把 缓存 分 成 了 2 个 与 页 面容 量 同等 大 小 的 分 
块 ， 每 个 分 块 被 称 为 一 个 缓存 Bin 〈 容 器 ) 。 

(4) 当 有 多 个 Way 且 Way 容 量 大 于 等 于 页 面容 
量 时 。 

对 于 多 个 虚拟 地 址 指向 同一 个 物理 地 址 的 场景 ， 
这 些 虚拟 地 址 不 同 ， 但 是 映射 到 同一 个 物理 地 址 的 多 
个 虚拟 地 址 都 会 被 放 在 同一 个 Way 中 。 因 为 缓存 控制 
器 在 比 对 物理 地 址 Tag 的 时 候 发 现 它们 都 是 一 样 的 ， 
会 按照 命中 处 理 ， 而 不 是 冲突 ， 所 以 不 会 跑 到 其 他 
Way。 但 是 依然 会 有 一 致 性 问题 。 


在 历史 上 ，VIPT 模 式 是 MIPS CPU 首次 引入 的 ， 
当时 人 们 并 没有 想到 其 会 带 来 别名 问题 ， 直 到 某 次 
某 程序 无 法 启动 ， 陷 入 无 限 循环 当中 ， 导 致 了 别名 
问题 被 浮上 水 面 ， 于 是 人 们 才 开 始 寻 找 解决 办 法 。 
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6.2.12 页面 着 色 


对 于 VIVT 模 式 的 缓存 ， 别 名 问题 的 解决 办 法 如 
上 文 所 述 ， 关 闭 超 线程 、 只 用 于 私有 缓存 且 进程 切换 
之 前 清空 缓存 ， 或 者 将 对 应 的 页 面 标记 为 不 可 缓存 。 

对 于 VIPT 模 式 的 缓存 ， 要 解决 别名 问题 有 软 硬 
两 种 方式 ， 先 看 一 下 硬件 方法 。 既 然 同 一 个 物理 行 在 
多 个 地 方 有 多 个 副本 ， 那 么 假设 如 果 硬 件 能 够 时 刻 保 
证 这 两 个 副本 是 一 模 一 样 的 ， 也 就 可 以 避免 一 致 性 问 
题 。 这 就 要 求 : 每 次 接收 到 写 入 缓存 的 请 求 的 时 候 ， 
缓存 控制 器 必须 并 行 地 用 物理 Tag 去 查询 所 有 Bin 中 对 
应 的 行 ( 注 意 ， 不 是 Way， 就 是 Bin， 因 为 映射 到 同 
一 个 物理 地 址 的 多 个 虚拟 地 址 索引 的 行 只 可 能 在 一 个 
Way 的 不 同 的 Bin 里 ) ， 每 个 Bin 给 出 一 个 是 否 Hit 的 信 
号 ， 如 果 发 生 了 多 个 Bin 同 时 给 出 了 Hit 信 号 ， 则 表明 该 
虚拟 地 址 产生 了 别名 问题 ， 而 且 有 多 个 副本 存在 于 这 
些 Bin 里 ， 那 么 缓存 控制 器 就 同时 更 新 这 些 Bin 中 对 应 
的 这 一 行 ， 即 可 保证 每 次 写 入 都 同时 更 新 所 有 副本 。 
如 果 只 有 一 个 Hit， 则 只 更 新 对 应 的 行 ， 如 果 都 不 Hit， 
那 证 明 对 应 数据 不 在 缓存 里 ， 没 有 别名 问题 。 

可 以 看 到 ， 硬 件 方式 解决 需要 将 多 个 Bin 并 行 起 
来 ， 做 成 4 套 独立 的 存储 器 分 块 ， 每 个 分 块 也 得 有 对 
应 的 读 写 控制 接口 电路 ， 成 本 将 会 非常 高 。 那 还 不 如 
将 每 个 Way 限定 在 4KB， 然 后 增加 Way 的 数量 ， 直 接 
避免 别名 问题 。 但 是 Way 的 数量 增加 太 多 ， 有 时 候 会 
适得其反 ， 实 践 证 明 4Way 组 相 联 几 乎 已 经 可 以 避免 
98% 以 上 的 冲突 。 

还 有 一 种 做 法 ， 就 是 通过 软件 来 保证 指向 同一 个 
物理 地 址 的 多 个 虚拟 地 址 的 Bin 号 都 相同 ， 也 就 是 人 
为 地 让 这 些 虚拟 地 址 都 定位 到 同一 个 Bin 的 同一 行 上 
相互 冲突 挤占 ， 这 样 就 可 以 保证 只 有 一 个 副本 。 如 何 
做 到 呢 ? 多 个 线程 共享 内 存 通信 ， 需 要 调用 内 存 管 理 
程序 ， 比 如 mmap() 函 数 ， 由 后 者 来 决定 将 某 个 物理 
页 面 映射 到 进程 的 哪个 虚拟 页 面 ( 通 过 修改 对 应 的 页 
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6-25 Way 容量 大 于 页 面容 量 时 缓存 被 逻辑 分 割 为 多 个 分 块 


可 大 话 计算 机 一 一 计算 机 系统 底层 架构 原理 极限 剖析 


表 条 目 ) ， 并 将 映射 好 的 虚拟 页 面 地 址 返回 给 线程 ， 
只 要 在 mmapO 函 数 下 游 增加 一 步 计算 就 可 以 。 当 然 ， 
线程 也 可 以 强制 指定 映射 到 哪个 虚拟 页 。mmap(void* 
start,size_t length,int prot,int flags,int fd,off t offset), 
这 是 实际 中 的 mmap0 的 参数 形式 ， 其 中 start 就 是 告诉 
mmap0 往 虚拟 地 址 空间 的 哪里 去 映射 ， 当 然 ， 如 果 强 
制 指定 ， 则 mmap0 就 不 会 做 上 述 计 算 了 ， 所 以 一 般 也 
没 人 给 出 这 个 参数 。 如 果 不 给 出 这 个 参数 ，mmap0 默 
认 会 避免 别名 问题 。 

上 述 这 种 软件 有 目的 地 安排 虚拟 地 址 的 做 法 ， 被 
称 为 页 面 着 色 (page coloring) 。 着 色 ? 从 何 而 来 ? 
如 图 6-25 所 示 。 这 时 所谓“ 色彩” 指 的 就 是 不 同 的 Bin 
号 ， 本 例 中 Index 超 出 了 2 位 ， 那 么 就 有 2=4 个 Bin 号 ， 也 
就 是 4 种 颜色 的 分 块 。 强 行 分 配 某 个 虚拟 地 址 的 Bin 号 ， 
将 会 让 其 落 入 对 应 颜色 的 分 块 中 ， 也 就 被 着 色 了 。 

比如 下 面 这 几 行 代码 就 是 从 Linux 操 作 系统 内 核 
的 do_mmap0 函 数 中 摘抄 出 来 的 : 

if (do_align) addr = COLOUR_ALIGN(addr, pgoff); 

else addr = PAGE_ALIGN(addr); 

其 意思 是 说 ， 如 果 变 量 do_align 为 1 的话， 也 就 
是 被 某 种 判断 逻辑 (比如 使 用 CPUID 指 令 读 出 CPU 的 
所 有 属性 发 现 ， 其 L1 缓存 采用 VIPT 模 式 ， 而 且 路 的 
容量 大 于 页 面容 量 ) 判断 为 “需要 按照 页 面 着 色 方式 
映射 虚拟 页 ”的 话 ， 那 么 就 调用 COLOUR_ALIGN() 
函数 ， 按 照 页 面 着 色 方式 去 映射 ， 如 果 不 要 求 页 面 着 
色 ， 那 么 就 调用 PAGE_ALIGNO 函 数 ， 按 照 传 统 方式 
去 映射 ， 不 考虑 别名 问题 。 

页 面 着 色 的 作用 可 不 仅仅 是 用 来 避免 缓存 的 别 
名 问题 。 试 想 一 下 ， 如 果 有 多 个 进程 ， 每 个 进程 包含 
多 个 线程 ， 它 们 被 轮流 调度 到 核心 上 运行 ， 在 这 个 场 
景 下 ， 每 个 进程 都 有 各 自 的 虚拟 地 址 空间 。 假 设 ， 进 
程 A 和 B 分 别 用 malloc0 或 者 mmap0 函 数 申请 了 一 段 内 
存 ， 内 存 管 理 程序 为 进程 A 分 配 了 物理 页 1， 并 更 新 进 
程 A 的 页 表 将 其 映射 到 了 进程 A 虚拟 地 址 空间 中 的 第 
1024 个 虚拟 页 上 ; 给 进程 B 分 配 了 物理 页 2， 并 也 映射 
到 了 进程 B 虚 拟 地 址 空间 的 第 1024 号 页 上 。 此 时 ， 就 
产生 了 同名 问题 ， 同 一 个 虚拟 地 址 被 映射 到 了 不 同 的 
物理 地 址 ， 但 是 对 于 VIPT 的 缓存 ， 不 受 该 问题 困扰 ， 
因为 当 进 程 B 访 问 该 页 并 更 新 了 某 行 时 会 不 命中 ， 
为 Tag 是 不 同 的 ， 于 是 缓存 控制 器 挤 出 进程 A 在 该 页 
中 的 某 行 数据 ， 将 进程 B 的 内 容纳 入 ; 同 理 ， 进 程 A 
如 果 访问 该 页 读 取 数据 ， 如 果 对 应 的 行 目 前 是 进程 
B 的 ， 那 也 不 命中 ， 所 以 也 会 挤占 掉 进 程 B 的 一 行 数 
据 。 也 就 是 说 ， 它 们 之 间 相互 挤占 ， 而 其 他 地 方 的 组 
存 空 行 却 得 不 到 利用 ， 都 往 这 挤 。 换 个 思路 ， 如 果 内 
存 管理 程序 能 够 有 目的 地 将 不 同 进程 的 虚拟 页 号 分 散 
到 多 个 Bin 上 ， 比 如 采用 轮流 (Round Robin) 方式 ， 
进程 A 申请 了 一 页 ， 则 将 虚拟 页 号 分 配 到 00 号 Bin; Ж 
程 B 又 申请 了 一 页 ， 则 分 配 到 01 号 Bin， 以 此 类 推 ， 这 
样 就 能 最 大 程度 避免 冲突 ， 提 升 缓存 命中 率 。 

所 以 ， 为 了 避免 路 的 容量 大 于 页 面容 量 的 VIPT 缓 


存在 共享 内 存 通信 场景 下 导致 的 别名 问题 ， 内 存 管理 
程序 需要 故意 将 指向 同一 个 物理 地 址 或 者 物理 页 面 编 
号 (physical page number，PPN) 的 所 有 虚拟 页 的 Bin 
号 设置 为 相同 ， 让 它们 相互 挤占 ， 从 而 只 在 缓存 中 保 
持 针 对 该 行 /该 页 的 唯一 的 内 容 副 本 ; 而 对 于 非 共 享 
内 存 通 信 场 景 ， 比 如 常规 的 多 进程 轮流 执行 场景 ， 内 
存 管理 程序 反 其 道 而 行 之 ， 将 多 个 不 同 的 虚拟 地 址 或 
者 虚拟 页 面 编 号 (virtual page number, VPN) Вт 
号 打 乱 ， 让 它们 不 互相 挤占 。 打 乱 分 散 的 算法 多 种 多 
样 ， 上 述 的 轮流 是 最 简单 粗暴 的 一 种 ， 也 是 最 盲目 的 
一 种 ， 具 体 还 得 看 内 存 管 理 程序 的 设计 。 

号 ， 相 互 挤占 的 问题 ， 不 是 可 以 用 多 个 Way 来 解 
决 么 ? 但 是 解决 得 不 够 彻底 ， 比 如 如 果 每 个 Way 对 应 
的 那 行 都 被 占 满 了 呢 ， 还 是 得 挤 出 一 行 来 。 所 以 如 果 
先 通过 页 面 着 色 ， 在 Way 内 部 分 散 存放 ， 如 果 还 是 冲 
突 ， 再 利用 其 他 Way， 这 样 利用 率 更 高 了 ， 命 中 率 自 
然 也 就 越 高 。 当 然 ， 如 果 Way 足 够 多 的 话 ， 页 面 着 色 
效果 的 加 成 比例 就 会 降低 ， 最 后 甚至 看 不 出 多 少 效 
果 ， 不 过 最 终结 论 还 得 看 不 同 的 程序 类 型 以 及 CPU 整 
体 架构 而 定 。 


页 面 着 色 这 个 词 第 一 次 出 现 还 是 在 1985 年 左 
№, 在 一 些 基于 MIPS CPU 平 台 的 内 存 管 理 程序 
中 ， 有 些 学 者 设计 并 提出 了 这 个 词 。 页 面 着 色 一 开 
始 并 不 是 为 了 解决 别名 问题 的 ， 因 为 那 时 候 别 名 问 
题 还 没 被 发 现 ( 见 上 文中 的 “趣闻 ”栏目 ) ， 而 单 
纯 就 是 想 将 不 同 进程 的 页 面 分 散 开放 置 。 仔 细 想 一 
下 ,既然 利用 着 色 可 以 人 为 地 选择 将 任意 页 面 放置 
在 某 个 Bin 内 ， 那么， 内 存 管理 程序 就 可 以 通过 这 种 
方式 来 控制 数据 在 缓存 中 的 布局 ， 而 且 可 以 将 某 个 
进程 的 页 面 往 多 个 Bin 里 映射 一 下 ， 而 不 是 只 局 限 在 
一 个 Bin， 那 么 这 个 进程 就 会 多 占用 一 些 缓存 资源 ， 
做 到 了 可 以 在 一 定 概率 上 人 为 控制 占用 缓存 比例 。 

另外 ， 页 面 着 色 不 仅仅 可 以 解决 缓存 冲突 ， 还 
可 以 解决 对 SDRAM 的 访问 冲突 ，SDRAM 内 部 其 实 
是 有 多 个 Bank 组 成 的 ， 每 个 Bank 每 次 只 能 承载 一 个 
读 / 写 请 求 ， 但 是 多 个 Bank 可 以 并 行 读 写 ， 那 么 如 
果 多 个 进程 的 数据 被 放置 到 了 同一 个 Bank 内 ， 在 没 
有 命中 缓存 时 ， 就 会 在 访问 SDRAM 时 产生 冲突 ， 
页 面 着 色 可 以 利用 地 址 中 的 某 几 个 处 在 较 高 位 置 的 
位 (因为 每 个 Bank 的 容量 相 比 缓存 容量 来 讲 要 大 得 
多 ， 所 以 其 索引 会 在 地 址 中 的 较 高 的 位 置 ) 来 索引 
每 个 Bank， 并 通过 控制 这 两 个 位 来 将 虚拟 页 面 映 
射 到 不 同 的 Bank， 从 而 做 到 并 行 访问 ， 降 低 冲 突 概 
率 。 如 果 缓 存 容 量 、SDRAM 的 容量 和 Bank 数 量 刚 
好 符合 菜 个 配 比 的 话 ，Bin Index 与 Bank Index 会 有 
一 部 分 重合 的 位 ， 通 过 控制 这 部 分 位 ， 可 以 同时 做 
到 既 让 不 同 进程 的 数据 既 在 缓存 中 分 散 ， 又 能 被 分 
散 到 不 同 的 SDRAM 的 Bank， 比 较 理 想 。 这 种 做 法 


被 称 为 Virtical Partition, ВИЉА, E SAMAA 
到 SDRAM 全 部 做 了 分 散 隔离 。 


另外 ， 采 用 虚拟 地 址 索引 的 缓存 模式 ， 在 内 存 
管理 程序 针对 进程 的 虚拟 地 址 到 物理 地 址 的 映射 发 生 
变更 之 前 ， 必 须 写 回 + 清空 缓存 ， 这 样 ， 核 心 再 发 出 
访 存 请 求 ， 就 会 不 命中 ， 然 后 用 MMU 给 出 的 物理 地 
址 (此 时 的 物理 地 址 是 从 页 表 中 查 出 的 新 鲜 的 物理 地 
址 ) 从 SDRAM 中 将 新 映射 的 物理 地 址 中 的 数据 填充 
到 缓存 中 。 总 结 一 下 ， 如 表 6-1 所 示 。 

可 见 ， 为 了 支持 虚拟 地 址 Index， 问 题 好 像 变 得 更 
加 复杂 了 ， 要 跟 上 一 大 堆 的 额外 设计 ， 就 为 了 节省 那 
访 存 时 多 出 的 一 个 时 钟 周期 ， 或 者 那 一 点 点 功 耗 。 别 
看 就 这 一 点 点 ， 由 于 频率 非常 高 ， 每 次 访 存 节省 一 点 
点 ， 积 少 成 多 ， 体 现 为 每 秒 做 功 多 少 焦耳 的 话 ， 还 是 
非常 可 观 的 一 笔 节 省 呢 。 


小 结 及 商用 CPU 的 缓存 模式 


写 到 这 里 ， 冬 瓜 哥 觉得 有 必要 全 局 总 结 一 下 这 一 大 堆 
东西 的 来 龙 去 脉 了 ， 因 为 缓存 这 个 课题 实在 是 非常 复杂 ， 
相互 缠绕 影响 的 因素 太 多 ， 很 容易 让 人 摸 不 着 头绪 。 

人 们 一 开始 很 自然 地 用 物理 地 址 和 全 关联 方式 
来 查找 缓存 ， 但 是 由 于 必须 使 用 CAM 才 能 保证 查询 
速度 ， 每 次 查询 所 有 的 Tag 都 要 读 出 比 对 ， 所 以 功 耗 
高 ， 虽 然 一 个 时 钟 周期 就 可 以 出 结果 ， 但 是 整体 频率 
上 不 去 ， 拖 累 了 CPU 核心 的 运行 频率 。 

所 以 开始 使 用 直接 关联 的 方式 ， 让 某 个 缓存 行 
只 能 存储 到 缓存 中 固定 的 行 ， 把 物理 地 址 最 尾部 的 
Гор СЛАТИ) 个 位 作为 行内 字 节 的 Offset， 再 
接着 从 尾部 截取 出 Log> (缓存 容量 /缓存 行 容 量 ) 作为 
Index 表 示 缓 存 内 的 行 号 ， 地 址 剩余 的 位 作为 Tag， 每 
个 地 址 只 能 被 放 到 Index 定 位 到 的 行 号 。 这 样 收 到 一 个 
访 存 地 址 ， 直 接 根 据 其 Index 到 对 应 的 行 中 读 出 之 前 存 
入 该 行 的 Tag 进 行 比 对 来 判断 是 不 是 同一 行 ， 如 果 是 
则 命中 ， 并 用 Offset 索 引 读 出 的 行 从 而 寻 址 到 字 节 粒 
度 ， 如 果 不 命中 则 从 后 级 缓存 填 入 该 行 并 将 Tag 一 同 
保存 在 行内 (或 者 单独 的 存储 器 保存 Tag) 。 这 样 做 
提升 了 频率 ， 也 可 以 做 到 一 个 时 钟 周期 就 可 以 匹配 出 


6.2.13 


表 6-1 各 种 缓存 模式 的 属性 对 比 


第 6 章 多 处 理 器 微 体系 结构 一 一 多 核心 与 缓存 EE 到 到 


是 否 命中 。 但 是 SDRAM 容 量 很 大 ， 有 大 量 Index 相 同 
的 行 ， 这 些 行 会 相互 挤占 缓存 中 的 同一 行 导致 冲突 。 
于 是 人 们 又 发 明了 组 关联 方式 ， 设 立 多 份 存 储 
器 ， 之 前 必须 挤占 别人 的 ， 现 在 可 以 到 另外 的 一 份 存 
储 器 里 的 同一 行 待 着 。 每 份 单独 的 存储 器 被 称 为 一 个 
Way， 多 个 Way 的 总 空间 合 起 来 就 是 缓存 总 容量 。 这 
样 降低 了 冲突 概率 。 代 价 就 是 需要 并 行 查找 每 个 Way 
的 对 应 的 那 一 行 看 看 是 否 匹配 ， 但 是 ， 相 比 全 关联 的 
所 有 Tag 都 需要 读 出 而 言 ， 多 路 组 关联 也 只 是 并 行 查询 每 
个 Way 中 的 一 行 而 已 ， 如 果 是 4 路 组 关联 ， 每 次 也 就 是 查 4 
行 ， 而 不 是 几 十 几 ， 百 或 者 上 千 行 〈 看 缓存 容量 ) 。 
即便 这 样 ， 还 是 有 人 琢磨 着 如 何 能 降低 功 耗 。 传 
统 做 法 是 : @ 用 收 到 地 址 的 Index 到 所 有 Way 中 读 出 
Tag; @ 与 收 到 地 址 的 Tag 比 对 ，@ 到 所 有 Way 中 对 应 
Index 定 位 的 那 行 把 数据 读 出 来 输送 到 Mux; 四 将 Tag 
比 对 结果 输送 到 该 Mux 选 出 命中 的 那 一 行 的 数据 。 上 
述 这 四 个 动作 都 在 一 个 时 钟 周期 内 完成 ， 这 样 频率 自 
然 上 不 去 。 于 是 ， 有 人 将 这 一 大 步 形 成 两 步 流水 线 : 
第 一 步 查 Tag， 如 果 这 一 步 不 命中 ， 那 么 根本 就 不 用 
去 读 Way 中 的 数据 ， 省 大 了 ， 如 果 命 中 了 ， 第 二 步 再 
去 对 应 Way 的 对 应 行 只 把 那 一 行 读 出 来 即 可 ， 也 省 大 
了 。 降 低 电 压 还 是 再 提升 100MHz 的 频率 ， 你 选 吧 ! 
另外 ， 由 于 形成 了 两 级 流水 线 ， 还 可 以 并 发 执行 两 个 
访 存 请 求 ， 一 举 两 得 。 
但 是 ， 就 这 样 还 有 人 不 罢休 ! 上 面 的 步骤 中 还 能 
省 点 什么 呢 ? 本 来 一 步 ， 分 成 两 步 ， 这 可 是 两 个 周期 
啊 ， 虽 然 能 提升 点 频率 ， 但 是 总 不 可 能 做 到 提升 一 倍 
的 频率 来 弥补 。 有 人 就 琢磨 了 ， 第 二 步 中 到 某 个 Way 
对 应 行 读 出 数据 的 过 程 ， 是 否 可 以 提前 到 第 一 步 来 
做 ， 这 样 就 变 成 一 个 周期 了 。 我 呵 ~~~， 刚 才 为 了 节 
省 功 耗 ， 分 成 两 个 周期 ， 现 在 又 要 回去 ， 这 是 什么 套 
路 ? 仔细 想 一 下 ， 之 前 分 成 两 个 周期 是 为 了 避免 并 行 
读 出 所 有 Way 中 对 应 行 的 数据 结果 ， 只 选 出 要 的 那个 
而 其 他 都 不 要 ， 如 果 能 用 某 种 方法 做 到 在 第 一 步 中 只 
读 出 某 一 个 Way 中 的 那 行 数 据 ， 也 能 省 电 ， 不 就 不 用 
分 成 两 个 周期 了 么 ? 问题 是 在 第 一 步 中 的 Tag 没 有 完 
成 判断 是 否 命中 之 前 ， 不 可 能 知道 该 读 哪个 Way 的 数 
据 。 是 啊 ， 你 可 以 猜 一 下 啊 ! 也 是 啊 ! 猜 一 下 起 码 有 
一 定 概率 可 以 猜 对 ， 如 果 猜 不 对 再 走 第 二 步 ， 只 赚 不 


VIVT 1 | ， 或 者 不 被 用 做 共享 缓存 同时 在 进程 


切换 时 清空 缓存 


只 在 路 的 容量 大 于 页 面容 量 时 发 生 。 

解决 办 法 : 多 选 一 

` 硬件 并 行 更 新 多 个 Bin 

` 不 被 用 做 共享 缓存 及 超 线程 场景 且 
在 进程 切换 前 清空 缓存 

· 用 页 面 着 色 


VIPT 2 


不 影响 产生 别名 问题 需要 


可 大 话 计算 机 一 一 计算 机 系统 底层 架构 原理 极限 剖析 


ЭМ! 于 是 人 们 和 弄 出 了 路 预测 技术 ， 运 作 过 程 与 分 支 
预测 类 似 。 发 指 啊 ! 连 这 一 丁点 的 东西 都 要 省 下 来 ? 
是 的 ， 现 代 CPU 的 架构 设计 已 经 到 了 瓶颈 期 ， 不 去 琢 
磨 这 个 那 还 能 干 啥 。 关 键 是 ， 随 着 芯片 制造 工艺 的 不 
断 提 升 ， 比 如 从 14nm 提 升 到 7nm， 在 功 耗 降低 的 情况 
下 ， 还 可 以 集成 入 更 多 的 逻辑 ， 所 以 自然 要 将 各 种 花 
哨 功 能 塞 进去 了 。 

上 面 这 些 设计 都 是 直接 用 物理 地 址 来 做 Index 的 ， 
也 就 是 PIPT 模 式 。 而 核心 发 出 的 是 虚拟 地 址 ， 需 要 经 
过 MMU 才 能 查 出 物理 地 址 ， 然 后 拿 着 物理 地 址 去 找 
缓存 控制 器 访 存 。 于 是 人 们 又 开始 琢磨 能 否 直接 用 虚 
拟 地 址 做 Index， 于 是 有 了 VIVT 模 式 。 核 心 发 出 的 虚 
拟 地 址 除了 发 送 给 MMU 去 查 物理 地 址 之 外 ， 还 同时 
发 送 给 了 缓存 控制 器 ， 后 者 直接 用 其 中 的 Index 定 位 到 
行 ， 当 MMU 查 出 物理 地 址 后 ， 缓 存 控 制 器 拿 着 物理 
地 址 去 下 一 级 缓存 要 数据 填 入 本 级 缓存 ， 并 将 虚拟 地 
址 中 的 Tag 记 录 到 行 中 ， 后 续 直接 拿 着 虚拟 地 址 的 Tag 
来 查 就 知道 是 否 命中 了 。 但 是 ，VIVT 深 受 相同 的 虚拟 地 
址 映射 到 不 同 物理 地 址 的 同名 问题 之 痛 ， 以 及 相同 的 物 
理 地 址 映射 到 不 同 虚拟 地 址 的 别名 问题 之 痛 ， 解 决 办 法 
是 有 的 ， 然 而 代价 是 巨大 的 。 所 以 很 少 有 人 用 VIVT。 

后 来 人 们 琢磨 出 VIPT 模 式 ， 缓 存 控制 器 直接 拿 
着 虚拟 地 址 的 Index 去 定位 行 ， 但 是 要 等 MMU 查 出 物 
理 地 址 ， 再 拿 着 物理 地 址 的 Tag 去 与 从 行 中 读 出 的 Tag 
比 对 判断 是 否 命中 。 相 比 VIVT，VIPT 多 耗费 一 个 时 
钟 周 期 。 然 而 VIPT 可 以 完全 避免 同名 问题 ， 但 是 对 于 
别名 问题 ， 如 果 能 保证 Way 容 量 小 于 等 于 页 面容 量 ， 
则 不 受 其 影响 ， 如 果 不 能 保证 ， 则 需要 通过 内 存 管理 
程序 配合 ， 采 用 页 面 着 色 的 方式 来 避免 。VIPT 比 较 折 
中 ， 所 以 相当 一 部 分 产品 采用 。 

可 以 看 到 ， 缓 存 如 此 复杂 ， 所 有 影响 因素 按 下 戎 
芦 起 来 也， 此 消 彼 长 ， 难 以 取舍 ， 最 后 搞 了 一 圈 或 许 
会 发 现 努 力 全 白费 。 为 了 省 掉 某 些 东西 不 得 不 加 上 另 
一 些 东 西 ， 结 果 要 么 性 能 反而 下 降 了 ， 要 么 就 是 某 些 
程序 性 能 提升 了 而 另 一 些 则 下 降 了 。 不 过 有 一 点 是 绝 
对 的 ， 那 就 是 缓存 及 其 相关 控制 逻辑 占 整 个 芯片 的 面 
积 比例 是 非常 大 的 。 如 图 6-26 所 示 ， 从 右上 图 你 一 眼 
就 能 看 到 三 大 片面 积 较 大 的 区 域 ， 这 就 是 缓存 。 

缓存 越 大 ， 电 路 就 越 复 杂 ， 寄 生 电容 越 多 ， 从 而 
会 拖累 主 频 。 因 为 L1 缓 存 一 般 与 核心 同 频率 运行 ， 耦 
合 的 非常 紧 。 历 史上 ，Intel 的 奔腾 II CPU 的 LI1 缓 存 为 
16KB， 而 到 了 奔腾 IV， 为 了 提升 主 频 ， 竟 然 把 L1 缓 
存 减 少 到 只 剩 下 8KB， 但 是 当时 主 频 已 经 可 以 上 升 到 
3GHz 了 。 惠 普 的 PA8000 把 L1 缓 存 做 到 了 1MB 级 别 ， 
访问 却 需要 多 个 时 钟 周期 ， 但 是 如 此 大 的 L1 缓 存 却 可 
以 提升 命中 率 ， 相 比 小 缓存 ， 一 旦 不 命中 就 得 去 L2 
缓存 查找 ， 又 得 多 耗费 时 钟 周期 ， 所 以 你 还 真 不 能 说 
PA8000 的 设计 就 不 好 。Itannium2 (422) CPU 的 L1 
缓存 为 16KB、4 路 组 关联 ，L2 缓 存 256KB、8 路 组 关 
№. Dj E, MIPS В 10000 及 UltraSpareII СРО 12 
存 使 用 了 路 预测 技术 。 
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6-26 ”缓存 所 占 芯 片面 积 的 比例 示意 图 


6.2.14 ”缓存 对 写 入 操作 的 处 理 


假设 核心 发 出 针对 某 地 址 上 的 字 节 的 写 操作 ， 也 
就 是 Stor 操 作 ， 该 字 节 的 地 址 为 A〈 虚 拟 地 址 ) ， 其 
所 在 的 缓存 行 并 不 在 缓存 中 ， 或 者 之 前 曾经 在 但 是 后 
来 被 别人 挤占 了 。 缓 存 运 行 在 VIPT 模 式 ， 控 制 器 拿 着 
这 个 虚拟 地 址 去 匹配 对 应 行 的 Tag， 发 现 没有 任何 匹 
配 ， 那 么 就 查找 哪个 Way 中 对 应 Index 的 行 处 于 I 状 态 
〈 室 行 ) ， 这 一 步 可 以 与 Tag 匹 配 在 同一 步 中 完成 ， 
同时 向 下 级 缓存 发 起 请 求 ， 读 出 来 这 一 行 准备 填充 到 
空 行 中 。 如 果 找到 了 一 个 空 行 ， 则 数据 返回 后 将 对 应 
行 写 入 到 该 行内 ， 并 更 改 对 应 的 Tag 和 状态 ， 同 时 需 
要 将 核心 发 出 的 Stor 请 求 要 更 新 的 字 节 写 入 到 该 行内 
对 应 的 字 节 位 置 上 ， 并 将 Dirty 位 置 1。 

可 以 看 到 ， 如 果 想 写 入 一 个 或 者 几 个 字 节 ， 并 
不 是 找到 一 个 空 行 只 把 这 几 个 字 节 直接 写 进 去 就 可 以 
的 ， 而 是 要 把 它 先 填 满 ， 再 把 新 数据 覆盖 进去 。 原 因 
很 简单 ， 举 个 例子 ， 某 个 空 行 被 标记 为 了 I (Invalid) 
状态 ， 并 不 表示 其 内 容 也 被 “清空 ”了 ， 无 所 谓 空 与 
不 空 ， 因 为 内 容 非 1 即 0，1 和 0 都 是 数据 。 系 统 刚 加 
电 时 ， 硬 件 底层 会 自动 将 所 有 缓存 行 设置 为 Invalid 状 
态 ， 也 就 是 将 I 位 置 为 1， 但 是 这 并 不 表示 数据 区 里 的 
内 容 就 是 全 0， 是 什么 值 并 不 确定 ， 这 与 具体 电路 的 
设计 有 关 ， 也 并 不 影响 后 续 程序 的 正确 执行 ， 因 为 程 
序 写 入 的 数据 会 覆盖 这 些 无 用 值 ， 同 时 缓存 控制 器 
会 将 [位 置 为 0， 表 示 该 行 有 效 。 那 么 ， 假 设 一 开始 组 
存 中 的 数据 是 全 0， 假 设 为 0000， 然 后 发 生 了 Stor 操 
作 ， 要 将 前 两 个 字 节 改 为 1， 如 果 此 时 直接 将 两 个 1 
写 进 去 ， 缓 存 行内 容 将 变 为 1100， 而 在 Stor 操 作 发 生 
之 前 ， 这 一 行 缓存 对 应 着 的 SDRAM 中 的 数据 并 不 一 
定 是 0000， 可 能 是 0011， 而 如 果 不 先 将 0011 填 入 缓存 


行 ， 再 将 00 改 为 11 的 话 ， 而 是 直接 将 缓存 改 为 1100， 
并 设置 Dirty 位 ， 那 么 SDRAM 中 右边 的 两 个 1 就 会 被 随 
后 的 脏 行 写 回 动作 错误 地 覆盖 掉 。 

所 以 在 向 缓存 行 中 写 入 数据 之 前 ， 需 要 先 将 其 内 
容 填 充 好 ， 这 个 过 程 叫 作 写 分 配 (write allocate) ， 或 
者 行 填充 (Line fill) 。 如 果 某 个 行 已 经 被 填充 上 来 了 ， 
向 其 中 写 入 一 个 或 者 多 个 字 节 时 就 会 写 命中 。 如 果 对 应 
行 的 内 容 尚未 被 填充 ， 向 其 中 写 入 字 节 会 发 生 写 不 命 
中 ， 此 时 ， 就 要 先进 行 写 分 配 再 将 这 行 的 内 容 写 进去 。 
这 种 为 了 做 一 件 事情 而 多 做 了 其 他 事情 的 现象 ， 被 称 
为 惩罚 ， 上 面 这 个 例子 被 称 为 写 惩罚 ， 惩 罚 的 结果 就 
是 多 读 了 一 整 行 ， 因 为 缓存 必须 以 行为 粒度 来 管理 。 

为 了 避免 写 惩罚 ， 有 些 设 计 在 写 不 命中 时 并 不 分 
配 缓存 行 ， 而 是 直接 越过 本 级 缓存 ， 往 下 一 级 缓存 中 
写 。 如 果 在 下 一 级 缓存 命中 则 好 ， 如 果 还 不 命中 ， 就 
继续 越过 向 后 续 存储 器 〈 比 如 SDRAM) 写 入 ， 在 这 
里 是 一 定 会 命中 的 。 这 种 做 法 被 称 为 写 不 分 配 (write 
none-allocate) 。 这 样 写 入 的 时 候 会 比较 快 ， 但 是 后 
续 如 果 要 读 这 行 数据 的 时 候 〈 很 有 可 能 马上 就 会 发 
生 ， 因 为 程序 的 访 存 行为 具有 时 间 局 部 性 ) ， 会 发 生 
不 命中 。 你 说 说 ， 早 知 如 此 当初 为 什么 不 在 项 层 缓存 
填充 好 这 一 行 呢 ? 但 是 ， 这 也 不 能 一 概 而 论 。 


思考 > 

如 果 核 心 发 出 的 访 存 请 求 的 尺寸 比较 大 ， 比 如 
直接 写 一 整 行 的话 ， 那 么 是 不 是 就 不 需要 预先 读 入 
该 行 了 呢 ? 是 的 ， 但 是 核心 一 般 不 会 发 出 这 么 大 尺 
寸 的 访 存 请 求 ， 因 为 目前 64 位 宽 的 CPU 里 的 一 个 寄 
存 器 最 大 也 就 是 64 位 ， 即 8 字 节 ， 诸 如 Stor 寄存 器 A 
地 址 1 这 种 指令 ， 最 大 访 存 尺 寸 也 不 过 8 字 节 。 但 是 
对 于 支持 SIMD 的 CPU， 会 有 一 套 额外 的 Load/Stor 
类 指令 ， 可 以 一 次 Load/Stor 多 个 寄存 器 ， 比 如 Intel 
最 新 CPU 里 的 AVX ( Advanced Vector Extension， 高 
级 向 量 扩展 ) 指令 集 。 对 于 SIMD 的 介绍 请 参考 本 
书 第 4 章 。 


当 写 命中 时 ， 如 果 只 将 数据 写 入 L1 缓 存 后 就 认为 
访 存 指令 执行 完毕 了 《完毕 是 以 L1 缓 存 控制 器 向 L/S 
单元 在 总 线 上 发 送 Completion 信 和 号 为 准 ) ， 被 称 为 回 
写 (write back, WB) ; 请 注意 ， 此 Write Back 并 不 是 
指 “ 当 要 淘汰 一 行 缓存 时 ， 如 果 它 是 脏 的 则 必须 将 它 
写 回 到 下 层 缓存 ”中 的 “ 写 回 ”。 

而 如 果 写 到 L1 缓 存 还 不 算 完 ， 必 须 同步 写 入 
到 下 一 级 缓存 的 话 ， 这 种 方式 被 称 为 透 写 (write 
through, WT) 。 回 写 的 速度 当然 要 快 于 透 写 。 一 般 
来 讲 ，L1 缓 存 与 核心 之 间 采 用 WB 模式 ， 而 L1 和 1L2 之 
间或 许 有 些 设计 采用 了 WT 模式 ， 也 就 是 L1 缓 存 控 制 
器 在 把 脏 数 据 写 入 L2 缓 存 时 ， 需 要 同步 写 入 L3 缓 存 。 

WB 模 式 当然 很 快 ， 但 是 需要 为 每 一 行 记录 Dirty 
状态 位 ， 来 追踪 哪 一 行 应 该 被 写 入 下 级 缓存 但 是 还 
没 写 。 而 WT 模 式 固然 慢 ， 但 是 可 以 不 记录 脏 位 ， 
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为 每 次 更 新 都 写 透 到 了 下 一 级 缓存 。 另 外 ， 当 决定 
Invalidate 某 行 数据 时 ， 不 需要 判断 其 是 否 脏 了 而 必须 
存 到 下 一 级 缓存 ， 而 是 直接 置 Invalid 位 即 可 ， 因 为 如 
果 脏 了 ， 下 一 级 缓存 一 定 已 经 存储 了 该 脏 行 了 。L1 组 
存 由 于 追求 绝对 的 速度 ， 所 以 L1 到 L2 之 间 不 用 WT 模 
式 。 但是， 在 L2 和 L3 之 间或 者 L3 到 SDRAM 之 间 ， 有 
些 设 计 则 采用 了 WT 模式 。 

一 般 来 讲 ，WB 和 Write Allocate 配 合 使 用 ， 而 WT 
和 Write None-Allocate 配 合 使 用 。 写 分 配 和 WT 在 一 起 
意义 不 大 。 


Intel 的 CPU 里 有 个 MTRR ( Memory Type Range 
Register) ， 地 址 空间 内 的 不 同 范围 区 间 可 以 通过 设 
置 这 个 寄存 器 来 控制 是 否 对 指定 的 内 存 地 址 区 间 使 
用 可 被 缓存 、 回 写 / 透 写 等 策略 。 具 体 对 外 的 展现 形 
式 则 可 以 是 在 BIOS 配 置 中 让 用 户 来 选 配 。 


6.2.15 Load/Stor Queue 与 Stream 
Buffer 


Stor 操 作 也 不 能 在 一 个 时 钟 周 期 就 完成 ， 因 为 至 
少 需要 经 过 命中 匹配 、 写 分 配 等 过 程 ， 如 果 遇 到 缓存 
已 满 ， 则 还 需要 挤 出 去 一 行 ， 这 些 步 又 比较 烦琐 。 
虽然 L1 缓 存在 命中 的 情况 下 需要 3 个 左右 的 时 钟 周期 
〈 随 设计 而 不 同 ) 完成 访 存 ， 但 是 人 们 就 在 想 ， 能 否 
在 L1 缓 存 与 L/S 单 元 之 间 再 增加 一 个 缓冲 ，Stor 的 数据 
先 扔 到 这 个 缓冲 中 就 算 完成 了 ? 而 且 这 个 缓冲 只 用 一 
个 周期 就 可 以 完成 数据 存 入 ， 这 样 就 可 以 降低 核心 流 
水 线 的 阻塞 频率 。 缓 冲 中 最 早 的 那个 请 求 会 被 发 出 到 
连接 L/S 单 元 和 L1 缓 存 控制 器 的 总 线 上 ， 从 而 将 请 求 
再 发 送 给 缓存 控制 器 处 理 。 

这 个 专门 用 于 Stor 操 作 的 缓冲 被 称 为 Stor Queue 
或 者 Stor Buffer， 其 本 质 上 是 一 个 FIFO 队 列 ， 其 中 存 
储 的 其 实 就 是 L/S 单元 发 出 的 Stor 请 求 ， 包 含 : 访 存 地 
址 、 长 度 和 数据 。 增 加 了 这 个 缓冲 部 件 会 产生 一 个 代 
价 ， 进 行 Load 请 求 的 时 候 ， 除 了 发 送 给 缓存 控制 器 去 
匹配 查找 之 外 ， 还 需要 并 行 地 查询 该 FIFO 内 有 没有 对 
应 地 址 的 数据 ， 如 有 则 忽略 缓存 控制 器 的 结果 ， 直 接 
从 这 里 将 数据 读 出 并 返回 给 核心 L/S 单 元 ， 因 为 这 里 
才 是 最 新 的 数据 内 容 。 这 势必 会 增加 硬件 电路 ，FIFO 
队列 外 围 要 增加 比较 器 。 从 这 一 点 上 来 看 ，Load 请 求 
经 历 的 第 一 站 并 非 L1 缓 存 ， 而 是 Stor Queue， 当 然 也 
可 以 两 者 并 行 查找 


在 Intel 的 CPU 平 台 下 ， 当 发 生 一 些 特殊 事件 
时 ， 硬 件 会 将 Stor Buffer 里 的 请 求全 部 写 入 RAM 【这 
个 过 程 俗 称 冲刷 (PFE) 】， 比 如 执行 了 Sfence/ 
Mfence 指 令 (这 两 条 指令 的 用 处 见 后 文 ) 等 。 
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这 种 思路 也 可 以 用 在 L1 和 2 等 不 同 级 的 缓存 
之 间 ， 而 且 可 以 适当 增加 容量 ， 因 为 L1 之 后 的 缓存 
层级 的 运行 频率 会 降低 ， 人 们 通常 将 位 于 L1 缓 存 之 
后 的 各 级 缓存 之 间 的 写 缓冲 队列 称 为 写 缓冲 (write 
buffer) 。 增 加 Stor Queue/Buffer 的 另 一 个 好 处 是 ， 可 
以 在 这 个 缓冲 中 将 多 个 针对 同一 个 地 址 的 Stor 请 求 合 
并 成 一 条 ， 比 如 先 用 Stor 指 令 存 出 了 地 址 A， 然 后 隔 
了 几 个 请 求 之 后 又 存 出 了 地 址 A， 那 么 此 时 就 可 以 直 
接 删 除 最 早 的 Stor 请 求 ， 只 保留 最 新 的 这 一 条 ， 这 样 
Ll 缓存 控制 器 只 张罗 一 次 就 行 了 。 这 个 优化 被 称 为 写 
融合 (write coalition) 。 

现代 CPU 中 除了 在 Stor 路 径 上 增加 缓冲 来 优化 
访 存 时 延 之 外 ， 在 Load 路 径 上 也 增加 了 一 个 Load 
Queue， 它 也 是 一 个 FIFO 队 列 ， 专 门 缓冲 那些 满足 了 
发 射 条 件 从 而 被 发 射 到 L/S 单 元 来 执行 访 存 的 请 求 。 
这 里 有 个 地 方 值得 思考 一 下 ， 流 水 线 中 的 保留 站 已 经 
给 指令 们 提供 了 一 个 歇息 等 待 的 地 带 ， 这 些 Load 请 求 
为 什么 不 能 在 这 里 等 待 ， 而 是 要 进入 Load Queue 里 等 
R? 答案 是 ，Load 指 令 可 能 会 缓存 不 命中 ， 这 样 的 话 
会 有 大 量 的 Load 指 令 积压 在 保留 站 里 等 待 缓存 将 数 
据 返回 。 由 于 保留 站 资源 很 宝贵 ， 回 顾 一 下 流水 线 那 
一 章 ， 可 以 看 到 其 并 不 仅仅 是 一 个 歇息 的 地 方 ， 其 配 
套 设施 非常 齐全 ， 每 一 条 指令 都 有 配套 的 各 种 状态 记 
录 ， 每 个 时 钟 周期 需要 大 量 的 比 对 、 匹 配 和 状态 更 新 
过 程 ， 非 常 繁忙 。 而 对 于 没命 中 L1 缓 存 的 这 些 Load 指 
令 ， 其 等 待 的 时 间 相 比 其 他 那些 由 于 相关 性 而 不 得 不 
等 待 的 指令 而 言 ， 会 占用 保留 站 更 长 的 时 间 ， 而 且 它 
们 根本 用 不 到 那些 配套 设施 ， 因 为 那些 设施 是 用 来 记 
录 和 判断 “该 指令 到 底 适 不 适合 发 射 ”的 ， 现 在 它们 
已 经 被 发 射 了 ， 就 可 以 被 清 掉 了 。 但 是 ， 我 们 说 访 存 
相对 于 计算 而 言 是 一 个 慢 速 动 作 ， 这 些 L/S 请 求 不 会 
马上 就 执行 完 ， 需 要 有 个 地 方 积压 起 来 ， 所 以 很 自然 
地 ， 人 们 便 在 保留 站 外 面 ， 也 就 是 L/S 单 元 中 ， 为 这 
些 等 待 数据 的 Load 指 令 开辟 了 一 个 小 单间 ， 把 这 些 桌 
霸 们 请 出 保留 站 这 间 VIP 休 息 区 ， 进 入 这 个 极其 简陋 
的 单间 里 等 待 。 这 样 ， 保 留 站 便 会 空 出 不 少 空位 置 
供 其 他 指令 来 此 歇息 。 那 么 为 什么 不 直接 把 Load 指 
令 译 码 完毕 就 越过 保留 站 而 直接 放 入 Load Queue 呢 ? 
那 是 因为 有 些 Load 指 令 中 并 未 包含 直接 地 址 ， 而 是 用 
了 寄存 器 间接 寻 址 ， 而 且 ， 有 些 Load 类 指令 甚至 支持 
将 某 些 寄存 器 所 保存 的 内 容 先 做 运算 ， 然 后 用 该 运算 
结果 来 当 作 Load 请 求 的 目标 地 址 。 比 如 Load_ra 寄存 
器 A+ 寄 存 器 B/ 寄 存 器 C 寄存 器 F， 意 思 是 先 将 寄存 器 
A 寄存 器 B/ 寄 存 器 C 的 结果 算出 来 ， 然 后 拿 着 该 结果 
访 存 。 所 以 ， 这 条 Load 指 令 在 被 发 射 到 L/S 单元 执行 
前 ， 必 须 等 待 寄存 器 B 除 以 寄存 器 C 再 加 上 寄存 器 A 
的 结果 值 ， 这 就 产生 了 RAW 相 关 性 了 ， 所 以 在 目标 地 
址 还 没 算出 来 之 前 ， 该 Load 指 令 不 能 被 发 射 到 L/S 单 
元 ， 必 须 在 保留 站 VIP 休息 区 待 着 ， 会 用 到 上 述 那 些 
配套 设施 。 有 些 设计 采用 了 一 个 单独 的 数学 运算 器 来 
专门 给 Load/Stor 类 指令 提供 地 址 计算 ， 被 称 为 地 址 生 


成 单元 (address generating unit, AGU) 。 

Load/Stor Queue 隶 属于 核心 L/S 单元 ， 有 些 设计 是 
Load 和 Stor 各 单独 设立 一 个 FIFO 队 列 ， 有 些 则 是 使 用 
同一 个 FIFO 队 列 ， 统 称 为 LSQ (Load/Stor Queue) 。 
每 次 Load 指 令 执 行 的 时 候 都 要 并 行 查 找 Stor Queue， 所 
以 这 两 者 之 间 耦 合 得 非常 紧密 。 同 理 ， 读 缓冲 也 广泛 
存在 于 各 级 缓存 之 间 ， 人 们 通常 将 处 于 L1 缓 存 下 游 的 各 
级 缓存 之 间 的 读 缓冲 队列 称 为 填充 缓冲 СШ buffer) 。 

由 于 Stor Queue 的 存在 ，Stor 指 令 的 执行 速度 通 
常 快 于 Load 指 令 。Load 需 要 在 大 量 数据 中 查找 ， 而 
Stor 只 是 简单 地 向 Stor Queue 中 一 扔 就 完了 。 所 以 通 
常 来 讲 ，Stor 访 问 比 Load 访 问 的 时 延 要 低 。 但 是 很 
显然 ，Load 比 Stor 更 加 重要 ， 因 为 Stor 是 干 完 了 活 把 
结果 送 到 内 存 ， 而 Load 则 是 为 了 干 活 而 从 内 存 中 拿 
数据 ， 拿 不 到 数据 就 干 不 了 活 ， 也 无 从 执行 Stor 指 令 
了 。 所 以 ， 缓 存 控制 器 会 被 设计 为 优先 执行 Load 请 
求 ， 这 被 称 为 读 优先 。 

其 实 ， 也 可 以 设计 一 个 ALU 队 列 放 置 到 ALU 前 
端 ， 把 需要 ALU 计 算 的 指令 排队 在 里 面 ， 只 不 过 ALU 
计算 时 一 般 是 比较 快 的 ， 简 单 计算 一 个 时 钟 周期 就 可 
以 出 结果 ， 放 一 个 队列 所 增加 的 硬件 成 本 就 不 划算 了 。 

除了 采用 Load/Stor Queue 来 加 速 访 存 之 外 ， 另 一 
个 广泛 使 用 的 技术 是 数据 预 取 (prefetch) 。 缓 存 控 
制 器 可 以 私自 将 除了 核心 所 请 求 的 缓存 行 之 外 的 接续 
的 缓存 行 预先 读 入 缓存 ， 后 续 再 访问 便 可 增加 命中 
率 。 如 上 文 所 述 ， 将 预 读 上 来 的 数据 直接 写 入 到 缓存 
中 ， 是 个 需要 好 好 张罗 的 事情 ， 有 不 少 步 又， 比较 麻 
烦 ， 而 且 预 读 毕竟 也 只 是 猜测 ， 如 果 让 猜测 的 数据 挤 
占 了 其 他 缓存 行 ， 则 是 本 末 倒 置 的。 所 以 ， 有 些 设计 
是 将 这 些 预 读 上 来 的 数据 单独 放置 在 一 个 FIFO 队 列 / 
缓冲 中 ， 并 不 往 缓存 中 写 ， 这 个 FIFO 被 称 为 流 缓冲 
(stream buffer) 。 对 于 后 续 的 访 存 请 求 ， 如 果 没 有 
命中 缓存 ， 则 就 去 流 缓冲 中 查找 一 下 ， 也 会 有 比较 高 
的 命中 率 。 由 于 流 缓冲 通常 不 会 很 大 ， 所 以 可 以 快速 
搜索 ， 相 比 直接 去 下 一 级 去 搜索 数据 而 言 ， 如 果 命 中 
在 流 缓冲 中 ， 访 存 时 延 将 会 有 很 大 降低 。 另 外 ， 对 于 
多 核心 场景 ， 同 时 有 多 个 线程 在 执行 ， 而 每 个 线程 访 
问 的 地 址 是 大 相 径 庭 的， 为 一 个 线程 预 读 上 来 的 数 
据 ， 对 其 他 线程 几乎 没有 用 处 ， 为 此 ， 有 些 设 计 又 设 
置 了 多 个 流 缓冲 来 分 摊 不 同 线程 的 地 址 流 ， 这 也 是 流 
(stream) 一 词 的 由 来 了 。 


6.2.16” 非 阻塞 缓存 与 MSHR 


对 于 CPU 核 心 ， 每 一 条 机 器 指令 对 它 来 讲 都 是 一 
个 任务 ;对 于 缓存 来 讲 ， 核 心 的 L/S 单元 发 出 的 访 存 请 
求 也 是 一 个 任务 。 核 心 把 计算 任务 交 给 ALU 来 执行 ， 
把 访 存 任务 交 给 L/S 单元 来 执行 ，L/S 单 元 再 把 任务 交 
给 缓存 控制 器 来 执行 。 在 LSQ 中 ， 可 能 有 多 个 Load/ 
Stor 类 指令 正在 等 待 结果 返回 ， 这 些 请 求 会 按照 顺序 一 
条 一 条 地 被 发 送 给 L1 缓 存 控制 器 去 执行 。 那 么 假设 ， 
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排 在 LSQ 中 队 首 的 某 个 Load 指 令 被 发 往 了 L1 缓 存 控 制 器 ， 结 果 控 制 器 的 查找 结果 是 本 次 访 
存 请 求 不 命中 ， 也 就 是 发 生 了 Cache Miss， 那 么 L1 缓 存 控制 器 将 会 等 待 如 10 个 左右 的 时 钟 周 
期 才能 从 L2 缓 存 中 拿 到 数据 ， 那 么 在 这 10 个 左右 时 钟 周期 内 ， 难 道 L1 缓 存 个 控制 器 就 无 事 
可 做 了 么 ? 显然 不 划算 ， 我 们 多 么 希望 LSQ 中 后 续 的 访 存 请 求 能 够 利用 这 个 间隙 被 缓存 
控制 器 执行 ! 

显然 ， 我 想 所 有 人 都 在 暗 想 : 如 果 L1 缓 存 控制 器 能 够 记录 一 个 状态 ， 比 如 哪个 请 求 
未 命中 ， 该 请 求 访问 的 是 哪个 地 址 ， 等 等 ， 然 后 继续 执行 后 续 的 Load/Stor 请 求 ， 如 果 又 
不 命中 ， 则 继续 记录 一 条 追踪 记录 。 当 数据 返回 时 ， 比 较 这 些 追 踪 记 录 看 看 是 哪个 访 存 
请 求 最 终 返回 了 数据 ， 然 后 缓存 控制 器 就 在 与 L/S 单 元 连接 的 总 线 上 向 L/S 单 元 返回 对 应 
的 数据 ， 并 对 所 有 的 返回 数据 加 以 区 分 ， 以 告诉 L/S 单 元 这 次 返回 的 是 哪 一 条 访 存 请 求 的 
数据 ， 比 如 通过 ID 标记 机 制 ， 每 个 请 求 都 有 各 自 的 ID， 也 可 以 直接 在 总 线 上 通告 该 数据 
要 被 载 入 到 的 目标 寄存 器 号 。L/S 单 元 拿 到 返回 的 数据 之 后 ， 根 据 LSQ 中 记录 的 访 存 请 求 
的 目标 数据 寄存 器 号 ， 直 接 将 数据 载 入 对 应 的 核心 的 数据 寄存 器 ， 从 而 完成 访 存 操作 。 
当然 ， 这 里 其 实 是 返回 到 了 内 部 的 私有 寄存 器 中 ， 会 被 流水 线 结果 侦 听 单元 捕获 到 ， 然 后 
更 新 到 保留 站 以 及 私有 寄存 器 中 的 记录 上 ， 这 样 依赖 这 些 数 据 的 、 依 然 等 待 在 保留 站 中 的 
其 他 指令 就 可 以 在 下 一 个 时 钟 周 期 内 被 发 射 控制 单元 判断 为 符合 执行 条 件 ， 从 而 被 调度 执 
行 ， 这 个 过 程 建议 回顾 流水 线 那 一 章 。 

这 种 支持 前 序 访 存 请 求 ， 即 便 不 命中 也 不 影响 后 续 访 存 指令 继续 执行 的 缓存 被 称 为 
非 阻塞 缓存 (попе blocking cache) 。 上 面 提 到 过 的 用 于 追踪 各 个 不 命中 的 访 存 请 求 的 
执行 状态 的 硬件 模块 被 称 为 MSHR (Miss Status Holding/Handling Register, ERRAR 
持 / 处 理 寄存 器 ) o 

如 图 6-27 所 示 ，MSHR 实 际 上 是 多 组 寄存 器 的 组 合 ， 图 中 标 出 了 3 组 MSHR， 其 
中 每 组 寄存 器 内 部 又 分 为 记录 缓存 行 的 地 址 、 状 态 的 寄存 器 (我 们 尚且 称 之 为 MSHR 
Header) ， 以 及 若干 个 记录 访问 该 行内 部 数据 的 访 存 指令 的 类 型 、 所 访问 的 字 节 Offset 以 
及 目标 寄存 器 号 的 寄存 器 (尚且 称 之 为 MSHR Воду) 。 一 开始 ， 所 有 MSHR 都 被 设置 为 
“无 效 ”， 也 就 是 Invalid 状 态 。 当 某 个 访 存 请 求 Miss 时 ， 缓 存 控制 器 向 下 一 级 存储 器 发 起 
缓存 行 读 请 求 的 同时 ， 还 会 将 这 个 Miss 对 应 的 缓存 行 Index 以 及 其 状态 〈 包 括 : 是 否 属于 
预 读 、 是 否 已 经 去 下 一 级 存储 器 读 入 、 已 经 拿 到 了 缓存 行内 的 哪些 部 分 等 ) 记录 到 其 中 
一 组 MSHR 中 的 Header 寄 存 器 中 ， 同 时 向 Body 寄 存 器 中 记录 本 访 存 请 求 自身 的 信息 ， 包 括 
访 存 的 类 型 、 访 问 的 Offset、 数 据 返回 时 要 存储 到 的 目标 寄存 器 号 或 者 Stor 指 令 的 源 寄 存 B 
器 号 ， 使 用 寄存 器 号 就 可 以 区 分 每 条 访 存 指令 。 缓 存 控制 器 从 后 级 缓存 将 缓存 行 的 数据 
提取 上 来 的 过 程 并 不 是 在 一 个 时 钟 周期 完成 的 ， 而 可 能 会 分 为 多 次 ， 每 次 拿 过 来 一 小 部 
分 ， 这 取决 于 当前 缓存 与 后 级 缓存 之 间 的 总 线 位 宽 。 假 设 缓存 行为 64 字 节 (51249) ， 而 : 
总 线 位 宽 是 128 位 ， 那 么 这 行 数据 就 得 分 四 次 ， 每 次 传递 128 位 。 在 这 个 过 程 中 ， 缓 存 控 i: 
制 器 可 以 做 一 个 优化 ， 叫 作 关 键 字 优先 。 一 般 来 讲 ， 一 个 Word СР) 由 2 个 字 节 组 成 ，2 
个 字 一 起 被 称 为 双 字 ， 由 4 字 节 组 成 。 一 个 缓存 行 可 容纳 32 个 字 ， 而 128 位 的 总 线 每 个 时 
钟 周期 可 传递 8 个 字 ， 传 完 一 个 缓存 行 就 需要 至 少 4 个 时 钟 周 期 (请 注意 这 里 是 指 后 级 组 
存 运行 在 的 时 钟 频 率 ， 而 非 核心 时 钟 频 率 ) ， 假 设 某 访 存 请 求 要 访问 的 是 某 缓存 行内 的 Ë 
第 30 个 字 ， 则 缓存 控制 器 可 以 在 第 一 个 时 钟 周期 内 先 从 后 级 缓存 请 求 32 个 字 中 最 后 那 8 个 
字 并 填充 到 缓存 行 中 对 应 的 存储 单元 ， 然 后 再 请 求 其 他 三 个 8 字 ， 这 样 就 可 以 先 把 第 30 个 
字 拿 回来 ， 随 后 向 上 级 部 件 返 回 数据 了 。 关 键 字 就 是 指 当前 访 存 请 求 要 访问 的 字 。 

缓存 控制 器 每 拿 到 一 个 缓存 行 的 一 部 分 字段 ， 就 将 其 填充 到 对 应 缓存 行 中 ， 同 时 还 
会 在 MSHR 中 查找 是 否 存 在 针对 这 个 缓存 行 的 未 命中 的 访 存 请 求 ， 如 果 有 ， 就 查找 Body 
寄存 器 看 看 这 些 访 存 请 求 的 Offset 是 否 能 够 落 入 刚刚 拿 到 的 字段 ， 如 果 落 入 ， 那 么 将 拿 
到 的 数据 返回 给 上 级 部 件 ， 并 删 掉 该 Body 寄 存 器 条 目 。 如 果 一 组 MSHR 下 面 的 Body 条 
目 为 室 ， 则 证 明 没 有 任何 访 存 请 求 访问 该 MSHR Header 寄 存 器 中 记录 的 对 应 Index 的 组 
存 行 了 ， 则 将 该 Header 寄 存 器 设置 为 无 效 ， 也 就 是 清空 它 ， 以 便 给 后 续 Miss 请 求 使 用 。 

当 收 到 新 访 存 请 求 时 ， 缓 存 控 制 器 首先 查询 当前 的 所 有 MSHR Haeder 寄 存 器 中 是 否 已 
经 存在 了 对 应 Index 的 缓存 行 处 于 Miss 状 态 ， 正 在 从 后 级 缓存 拿 数据 : 如 果 存在 ， 则 在 该 
组 MSHR 的 Body 寄 存 器 中 新 记录 一 条 描述 本 次 访 存 请 求 的 条 目 ， 不 必 向 后 级 的 缓存 发 起 请 
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求 ， 因 为 之 前 的 Miss 已 经 触发 了 这 个 动作 ， 正 在 等 待 数 
据 返 回 ， 如 果 没 有 ， 则 新 用 一 个 空闲 的 MSHR 组 ， 在 其 
Header 寄 存 器 中 记录 本 次 访问 的 目标 缓存 行 Index 及 其 他 
信息 ， 以 及 选择 一 个 Body 寄 存 器 存 入 本 次 访 存 的 Offset 
等 信息 ， 然 后 向 后 级 缓存 发 起 缓存 行 读 请 求 。 如 果 
MSHR 组 已 满 ， 或 者 对 应 的 组 中 的 Body 寄 存 器 已 满 ， 则 
只 能 等 待 ， 也 就 是 将 其 暂时 阻塞 在 Load/Stor Queue 中 。 

可 以 看 到 ，MSHR 与 核心 流水 线 的 保留 站 的 作 
用 和 角色 是 一 样 的 。 一 般 设计 中 ，MSHR 的 数量 为 
4 一 32 个 。 另 外 ，MSHR 并 不 仅仅 用 于 追踪 不 命中 的 
访 存 请 求 ， 其 Header 寄 存 器 中 “状态 ”字段 的 信号 
会 直接 与 下 游 电路 相连 接 并 控制 下 游 电路 做 对 应 的 动 
作 。 当 判断 某 个 访 存 不 命中 且 需 要 新 启用 一 个 MSHR 
Header 时 ， 硬 件 会 向 这 条 MSHR 的 状态 字段 填 入 Read 
Pending 状 态 码 ， 状 态 字段 的 导线 直接 连接 到 下 游 译 
码 电路 中 ， 译 码 器 判断 该 状态 码 为 Read Pending， 则 
控制 对 应 的 电路 模块 向 后 级 缓存 发 出 对 应 的 访 存 请 
求 ， 请 求 中 的 地 址 信号 也 来 自 MSHR。 请 求 发 出 后 ， 
更 改 状态 字段 为 Read Requested 状 态 码 ， 该 状态 码 并 
不 会 触发 下 游 电路 发 送 访 存 请 求 。 当 下 级 缓存 返回 数 
据 时 ， 也 携带 有 该 数据 的 地 址 信号 ， 电 路 将 地 址 信号 
提出 用 于 比 对 MSHR 中 的 地 址 字段 ， 车 匹配 ， 则 证 明 
返回 的 就 是 该 缓存 行 ， 则 将 对 应 的 状态 字段 改 为 Read 
Finished 状 态 码 。 接 下 来 ， 缓 存 控制 器 需要 将 该 MSHR 
中 的 信号 输出 到 与 L/S 单元 连接 的 总 线 上 ， 并 将 该 
MSHR 置 为 Invali 状 态 ， 表 示 空 末了 。L/S 单 元 将 收 到 
的 这 些 信 号 锁 存 到 一 个 寄存 器 中 ， 并 将 L/S 队列 中 对 
应 的 请 求 删除 ， 因 为 其 已 经 执行 完了 ， 同 时 ， 将 收 到 
的 数据 传送 到 核心 的 目标 数据 寄存 器 中 。MSHR 中 的 
状态 字段 还 会 表示 更 多 的 其 他 状态 ， 后 文中 介绍 缓存 
一 致 性 问题 时 ， 还 会 遇 到 MSHR 。 


所 以 要 充分 理解 的 一 点 是 ， 寄 存 器 的 确 是 用 来 
暂 存 数据 /信息 /信号 的 ， 但 是 存 下 来 干什么 用 呢 ? 当 
然 要 输送 给 下 游 的 组 合 远 辑 电 路 使 用 ， 如 果 是 程序 
员 可 见 的 数据 寄存 器 ， 它 们 的 信号 会 被 输送 到 ALU/ 
FPU 进 行 运算 ， 如 果 是 控制 寄存 器 ， 比 如 上 述 的 
MSHR 等 ， 其 内 部 的 信号 会 被 输送 到 控制 电路 中 用 
于 译 码 和 控制 其 他 模块 ， 比 如 Mux/Demux 选 路 等 。 
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对 于 直接 关联 (1 路 组 关联 ) 的 缓存 ， 当 发 生 
Load/Stor 不 命中 时 ， 需 要 将 对 应 的 缓存 行 从 下 级 缓存 
读 入 ， 读 入 的 这 行 只 能 存放 在 唯一 的 位 置 上 ， 也 就 是 
Index 索 引 的 那个 位 置 上 ， 而 这 个 位 置 之 前 存储 的 内 容 
需要 被 淘汰 掉 ( 如 果 脏 了 就 先 写 回 再 被 Invalid， 没 脏 
则 直接 Invalid) 。 但 是 对 于 全 关联 或 者 多 路 组 关联 的 
缓存 来 讲 ， 发 生 不 命中 时 ， 读 上 来 的 缓存 行 是 可 以 被 
放 在 多 个 可 选 位 置 上 的 ， 其 中 全 关联 模式 下 ， 可 以 挤 
出 任何 位 置 上 的 数据 ，n 路 组 关联 模式 下 ， 可 以 挤 出 n 
路 中 任意 一 路 对 应 Index 行 的 数据 。 这 就 需要 一 种 策略 
来 判断 到 底 挤 出 或 者 说 替换 哪 一 行 数据 更 加 合适 。 在 
此 列 出 一 些 常见 算法 。 

随机 替换 (random replacement, ВВ) 。 这 个 算法 最 
简单 粗暴 ， 不 用 动脑 子 ， 不 用 增加 复杂 的 判断 电路 。 当 
缓存 容量 比较 大 的 时 候 ，RR 模 式 最 划算 ， 毕 竟 ， 任 何 
复杂 的 优化 方式 在 加 大 缓存 容量 后 均 会 被 一 砖 扬 倒 。 

最 近 最 少 使 用 者 被 替换 (least recently used, 
LRU) 。 缓 存 控 制 器 为 每 个 缓存 行 记录 一 个 计数 器 
(counter) ， 但 是 该 计数 器 并 不 是 该 行 每 被 访问 一 次 
就 +1 的 。 缓 存 控制 器 自身 会 维护 一 个 独立 的 计数 器 ， 
每 次 不 管 访问 了 哪个 行 ， 这 个 独立 的 计数 器 都 被 +1， 
然后 将 其 数值 复制 到 本 次 访问 的 那个 行 的 计数 器 中 存 
放 ; 也 就 是 说 ， 最 近 一 次 被 访问 的 缓存 行 的 计数 器 总 
是 拥有 最 大 的 数值 ， 上 一 次 被 访问 的 计数 器 拥有 第 二 
大 数值 ， 显 然 ， 拥 有 最 小 计数 器 数值 的 那个 缓存 行 就 
是 LRU， 要 挤占 就 挤占 它 。 如 果 是 全 关联 缓存 ， 那 么 
为 了 找 出 计数 器 值 最 小 的 行 ， 就 需要 复杂 的 比较 电路 
来 比较 所 有 的 计数 器 值 ， 比 较 电路 会 比较 复杂 。 对 于 
多 路 组 关联 缓存 ， 比 如 4 路 组 关联 ， 要 挤占 的 行 只 能 
从 某 个 组 中 选择 ， 一 组 里 只 有 4 路 ， 一 共 只 比较 4 个 计 
数 器 值 ， 所 以 比较 电路 可 以 比较 简单 ， 更 具 可 行 性 。 
还 有 另外 一 种 更 加 精妙 的 方式 来 实现 LRU。 假 设 有 N 
个 缓存 行 ， 首 先 设计 一 个 具有 nxn 位 的 方形 bitmap， 
实际 上 就 是 一 堆 存 储 器 ， 当 访问 了 第 个 缓存 行 时 ， 
就 把 这 个 bitmap 的 第 m 行 中 的 位 全 部 置 为 !1， 紧 接着 再 
把 第 m 列 全 部 置 为 0。 在 任意 时 刻 ， 考 察 该 bitmap 中 所 
有 行 里 的 数值 ， 最 小 的 那个 就 是 LRU。 

图 6-28 为 一 个 4 缓存 行 的 缓存 ， 访 问 顺序 为 :第 
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图 6-28 ”使 用 bitmap 方 式 实现 LRU 算 法 


0 行 、 第 1 行 、 第 2 行 、 第 3 行 、 第 2 行 。 在 T; 或 者 T4 时 
刻 ， 由 于 bitmap 的 第 0 行 数 值 最 小 〈 全 0) ， 所 以 判 
定 第 0 个 缓存 行为 LRU。 不 过 这 种 实现 对 于 硬件 来 讲 
不 太 友好 ， 因 为 每 次 访 存 都 需要 改 一 行 、 一 列 ， 而 
SRAM 阵 列 一 般 都 是 一 行 一 行 来 读 写 的 ， 改 动 一 列 就 
意味 着 每 一 行 都 要 改 。 

伪 LRU (pseudo LRU) 。 由 于 纯 LRU 算 法 需要 
比较 多 个 计数 器 中 的 数值 ， 硬 件 比较 电路 开销 较 大 ， 
不 利于 提升 频率 ， 所 以 有 人 发 明了 多 种 判定 精度 低 一 
些 ， 但 是 硬件 实现 比较 简单 的 LRU 实 现 方式 ， 这 被 称 
为 伪 LRU。 比 如 ， 其 中 一 种 最 为 粗暴 的 方式 是 ， 为 每 
个 缓存 行 增加 一 列 ， 多 记录 1 位 的 状态 位 ， 每 次 只 要 
某 个 缓存 行 被 访问 命中 了 ， 就 将 该 位 置 为 1， 那 么 在 
任意 时 刻 ， 那 些 该 位 为 0 的 缓存 行 一 定 是 未 被 访问 过 
的 ， 此 时 可 以 随机 选择 一 个 挤 出 去 ， 或 者 选择 Index 
最 小 的 挤 出 去 。 当 所 有 缓存 行 都 被 访问 过 ， 该 位 都 变 
为 1 时 ， 将 所 有 的 1 清 零 ， 重 新 来 过 。 这 个 方法 确实 够 
伪 ， 它 只 保证 最 近 被 访问 的 那个 行 一 定 不 会 被 挤 出 
去 ， 但 是 其 他 行 却 被 一 刀 切 ， 但 是 实现 起 来 很 简单 。 

最 不 频繁 使 用 者 被 替换 (least frequently used, 
LFU) 。LRU 算 法 整体 上 略 显 粗暴 ， 它 并 不 关心 一 段 
时 间 内 某 个 行 总 共 被 访问 了 多 少 次 ， 某 个 行 虽然 不 是 
最 近 被 访问 的 ， 但 是 它 在 一 段 时 间 内 可 能 总 共 被 访问 
了 很 多 次 ， 是 一 个 热点 行 ， 那 么 这 个 行 貌似 就 不 应 该 
被 挤 出 。 基 于 这 个 角度 设计 ， 每 个 缓存 行 还 是 拥有 一 
个 计数 器 ， 每 次 访问 命中 了 某 个 行 时 ， 将 对 应 的 计数 
器 +1。 当 发 生 不 命中 需要 挤 出 某 行 时 ， 比 较 大 小 ， 最 
小 的 被 挤占 。LFU 与 LRU 让 人 看 了 好 像 很 难 区 分 ， 因 
为 最 后 都 是 比较 计数 器 的 数值 ， 看 谁 小 。 注 意 ，LRU 
的 计数 器 记录 的 并 不 是 某 个 行 一 共 被 访问 了 多 少 次 
而 是 某 个 行 是 最 近 第 几 个 被 访问 的 ， 值 越 大 说 明 越 
近 ， 这 也 是 Recently 与 Frequently 的 本 质 区 别 。 

带 时 效 的 LFU (aged LFU) 。LFU 算 法 以 一 段 时 
间 内 的 访问 总 次 数 为 判断 依据 ， 但 是 次 数 积累 了 太 
多 ， 也 不 公平 ， 比 如 某 一 行 前 1 秒 钟 被 疯狂 访问 ， 但 
是 1 秒 以 后 就 再 也 没 被 访问 过 ， 它 凭借 着 前 1 秒 钟 积累 
的 计数 器 值 ， 吃 起 了 老 本 ， 因 为 总 体 上 来 讲 它 的 总 访 
问 量 还 是 最 高 的 ， 其 他 行 一 时 半 会 追 不 上 它 ， 所 以 它 
依然 悠然 自得 地 躺 在 缓存 中 “颐养 千年 ”。 这 不 科 
学 ， 需 要 引入 强行 淘汰 机 制 ， 于 是 有 些 实现 是 在 每 次 
更 新 计数 器 的 时 候 ， 强 行将 所 有 缓存 行 计数 器 的 位 进 
行 右 移 一 位 ， 比 如 之 前 是 10101010， 右 移 一 位 之 后 就 
会 变 为 01010101， 这 样 其 表示 的 数值 就 会 降低 一 个 数 
量 级 ， 也 就 是 让 所 有 行 都 不 可 能 吃 老 本 ， 每 次 访问 了 
某 一 行 ， 就 将 该 行 计 数 器 的 最 左边 一 位 置 为 1， 将 数 
值 在 增加 回来 ， 这 样 就 可 以 同时 实现 LRU 的 保持 最 近 
访问 的 行 拥有 最 高 的 计数 器 值 〈 因 为 其 他 行 最 左边 都 
是 0， 本 次 命中 的 行 最 左边 为 1， 数 值 最 大 ) ， 同 时 利 
用 其 他 位 表示 的 数值 作为 访问 频 度 的 判断 依据 ， 兼 顾 
了 LFU 的 优点 。 

除了 上 述 这 些 常 用 的 替换 策略 之 外 ， 还 有 FIFO、 
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Second Chance, Clock, Working Set、WSClock 等 算法 ， 
在 此 就 不 过 多 介绍 了 ， 读 者 有 兴趣 可 以 自行 学 习 。 

上 文中 介绍 了 可 以 用 于 全 关联 或 者 多 路 组 关联 
缓存 模式 下 的 替换 策略 。 那 么 对 于 直接 关联 的 缓存 ， 
前 文中 也 说 过 ， 没 得 选 ， 只 有 一 个 候选 行 ， 必 须 挤 出 
它 。 那 么 不 管 这 一 行 是 最 近 访 问 还 是 高 频率 访问 ， 都 
得 出 去 ， 这 就 很 无 率 了 ， 就 因为 彼此 共享 了 同一 个 
坑 ， 你 来 了 我 就 得 走 。 鉴 于 此 ， 人 们 为 这 些 被 挤 出 的 
无 辜 缓存 行 提供 了 一 个 挽留 之 地 ， 称 为 无 辜 者 缓存 
(Victim Cache) 。 无 辜 者 缓存 位 于 两 级 缓存 之 间 。 
每 次 接收 到 访 存 请 求 ， 除 了 查询 主 缓存 之 外 ， 也 同步 
查询 一 下 无 率 者 缓存 中 是 否 命中 。 实 践 证 明 ， 无 率 者 
缓存 只 需要 几 行 容量 ， 就 可 以 对 命中 率 有 较 大 的 提 
升 。 看 来 多 数 场景 下 无 率 者 确实 是 无 率 的 。 那 么 ， 既 
然 直接 关联 的 缓存 冲突 严重 ， 那 到 底 是 加 足够 大 的 无 
谤 者 缓存 更 好 ， 还 是 直接 增加 路 的 数量 更 好 呢 ? 这 是 
个 见仁见智 的 问题 ， 无 定论 。 无 率 者 缓存 本 质 上 与 多 
路 方式 是 类 似 的 ， 只 不 过 多 路 方式 下 ， 缓 存 行 还 是 要 
按照 Index 规 则 排 布 在 多 个 路 中 ， 而 无 率 者 缓存 内 的 缓 
存 行 的 放置 没有 规则 ， 可 以 先进 先 出 ， 灵 活 了 许多 。 
多 路 组 关联 设计 相当 于 把 多 个 路 铺 开 形成 一 张 完 全 被 
动 等 待 着 命中 的 大 网 ， 完 全 靠 运气 来 实现 多 路 并 发 。 


6.2.18 i_Cache/d_Cache/TLB_ Cache 


指令 缓存 Cinstruction cache) 简称 iCache， 数 据 
缓存 (data cache) 简称 dCache。 这 两 个 缓存 的 运行 
机 制 类 似 ， 都 符合 上 述 介绍 过 的 那些 设计 思想 。 其 
主要 区 别 在 于 作用 在 整个 执行 过 程 中 的 位 置 不 同 ， 
指令 总 是 先 从 iCache 中 被 取出 ， 然 后 解析 。 如 果 是 计 
算 类 指令 则 派发 给 计算 单元 执行 ， 如 果 是 访 存 指令 
则 派发 给 L/S 单元 执行 ， 从 这 里 开始 ，L/S 单 元 便 会 与 
L1 dCache 产 生 交 互 。 如 图 6-29 所 示 ， 核 心 是 个 处 理 引 
擎 ， 其 从 dCache 里 把 数据 吸 〈Load) 进来 ， 处 理 完 后 ， 
Ж. (Stor) 回 dCache。 而 引擎 的 所 有 动作 都 要 由 指令 
来 驱动 ， 引 擎 不 断 从 iCache 中 提取 指令 ， 但 从 来 不 会 向 
iCache 中 写 入 任何 数据 (除非 在 将 来 “ 自 编 程 ”程序 得 
以 成 熟 ) 。 本 例 中 ，L1 和 L2 缓 存 为 每 个 核心 私有 ，L3 缓 
存 所 有 核心 共享 。 同 时 ，L2 缓 存 同时 承载 指令 和 数据 。 

现在 思考 一 个 问题 ， 为 什么 要 把 指令 缓存 和 数据 
缓存 分 开 独 立 呢 ? 那 是 因为 指令 流 和 数据 流 访问 的 根 
本 就 不 是 同一 块 SDRAM 区 域 。 我 们 在 上 一 章 介绍 过 
一 个 程序 在 内 存 中 的 布局 ， 链 接 器 会 将 指令 代码 和 数 
据 内 容 分 开 存放 ， 而 不 是 混杂 在 一 起 ， 这 实际 上 就 是 
为 了 配合 CPU 的 分 离 缓存 设计 。 如 果 混 杂 在 一 起 ， 会 
导致 相互 挤占 ， 比 如 本 来 缓存 了 一 堆 指令 ， 结 果 突 然 
被 数据 给 冲 掉 了 ， 则 指令 读 取 时 不 命中 ， 严 重 影响 性 
能 。 指 令 多 数 时 候 是 顺序 执行 的 ， 偶 尔 发 生 跳 转 ， 而 
对 数据 的 访问 很 多 时 候 是 没有 一 个 固定 形式 的 ， 这 两 
者 行为 不 同 ， 分 开 更 好 。 但 是 到 了 L2 缓 存 ， 指 令 和 数 
据 就 混杂 存放 了 ， 因 为 L2 缓 存 的 容量 比较 大 ， 冲 突 概 
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率 降 低 了 ， 同 时 还 可 以 降低 硬件 复杂 度 。 

另外 ，iCache 缓 存 控 制 器 在 预 取 的 时 候 ， 可 能 会 
取 数 据 内 容 到 iCache 中 ， 比 如 当前 所 执行 的 指令 恰好 
处 在 与 数据 区 相 接 的 边缘 地 带 ， 同 理 ，dCache 也 可 能 
取 进 指令 代码 。 但 是 这 两 种 情况 不 会 导致 执行 错误 ， 
因为 即便 是 iCache 中 混入 了 数据 内 容 ，PC 指 针 也 永 
远 不 可 能 访问 到 这 些 地 址 ， 除 非 出 现 Bug; 即便 是 在 
dCache 中 混入 了 指令 代码 ，L/S 单 元 发 出 的 地 址 请 求 
也 不 会 落 入 到 这 些 地 址 区 域内 ， 除 非 程序 有 意 为 之 ， 
或 者 有 Bug。 

前 文中 介绍 过 TLB， 这 个 缓存 非常 关键 ， 因 为 在 
核心 访问 iCache/dCache 之 前 ， 必 须 先 经 过 TLB 查 出 物 
理 地 址 (对 于 PIPT 模 式 的 iCache/dCache 而 言 ) , TLB 
的 命中 率直 接 决 定 了 整体 的 性 能 ， 否 则 后 续 缓存 即便 
采用 了 宇宙 无 敌 优化 方法 ， 在 TLB 产 生 瓶 颈 的 话 ， 狂 
如 竹 篮 打 水 。TLB 也 分 指令 和 数据 ， 原 因 是 一 样 的 ， 
因为 它们 所 在 的 内 存 区 域 不 同 ， 分 开会 提高 各 自 的 
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命中 率 。 另 外 ，TLB 也 做 成 了 分 级 的 形式 ， 存 在 L2 
TLB， 在 这 里 指令 和 数据 对 应 的 页 表 项 混杂 存放 。 

再 思考 一 个 问题 : 如 果 线 程 调度 程序 调度 了 另 
外 一 个 进程 中 的 线程 执行 ， 那 么 此 时 由 于 虚拟 地 址 
空间 被 整体 切换 ，TLB 之 前 缓存 过 的 内 容 就 必须 被 清 
空 ， 否 则 会 翻译 出 错误 的 物理 地 址 ， 因 为 不 同 进程 
可 能 会 发 出 相同 的 虚拟 地 址 ， 但 是 它们 对 应 的 物理 
地 址 是 不 同 的 ， 所 以 必须 清空 TLB， 然 后 开始 预 热 过 
程 ( 从 存储 在 SDRAM 的 页 表 中 逐渐 将 表 项 提取 填充 
到 TLB) 。 这 个 代价 太 大 了 ， 因 为 进程 切换 的 频率 非 
常 频繁 ， 每 10ms 可 能 就 会 切换 一 次 。 人 们 的 做 法 是 
给 TLB 中 每 个 表 项 增加 一 列 ， 记 录 该 表 项 对 应 的 进程 
ID， 这 样 就 可 以 区 分 开 。 切 换 进程 之 后 ， 不 必 清空 ， 
查找 的 时 候 只 去 尝试 匹配 与 当前 运行 的 进程 ID 匹配 的 
那些 条 目 即 可 。 

图 6-30 为 Intel Nehalem 平 台 CPU 和 AMD Opteron 
X4 平 台 CPU 在 缓存 方面 的 参数 对 比 。 
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6.2.19 对齐 和 伪 共 享 


由 于 缓存 是 以 缓存 行 而 不 是 字 节 为 最 小 管理 粒 
度 的 ， 这 在 一 定 程度 上 带 来 了 不 少 问题 。 首 先 就 是 对 
齐 问题 。 假 设 某 个 程序 生成 了 一 个 数组 ， 大 小 为 64 字 
节 ， 一 个 缓存 行 也 为 64 字 节 ， 但 是 这 个 数组 的 起 始 地 
址 并 没有 与 缓存 行 对 齐 ， 跨 越 了 两 个 缓存 行 。 如 果 程 
序 针 对 该 数组 内 的 数据 开始 不 停 地 读 写 ， 那 么 必须 从 
下 级 存储 器 读 出 被 跨越 的 这 两 个 缓存 行 ， 而 不 是 仅 一 
个 〈 如 果 这 64 字 节 被 放置 到 一 行 里 的 话 ) ， 这 就 产生 
了 读 惩罚 。 所 以 ， 编 译 器 在 这 里 会 起 到 很 大 的 优化 作 
用 ， 其 会 尽力 保证 变量 位 于 的 地 址 与 缓存 行 的 粒度 是 
对 齐 的。 对 于 那些 由 程序 动态 申请 的 内 存 〈 堆 ) ， 程 
序 要 负责 手动 地 将 数据 存储 到 这 些 内 存 中 ， 此 时 就 需 
要 程序 员 来 避免 产生 不 对 齐 问 题 。 

还 有 一 个 问题 ， 如 果 两 个 线程 各 自 访问 各 自 的 
变量 ， 而 这 两 个 变量 数据 处 在 同一 个 缓存 行 中 。 这 个 
是 高 概率 事件 ， 因 为 OS 对 一 个 进程 的 内 存 一 般 是 按 
照 4KB 页 面 为 粒度 来 分 配 的 ， 该 进程 内 部 的 多 个 线程 
所 操纵 的 数据 有 很 高 的 概率 落 在 同一 个 4KB 之 内 ， 也 
有 很 高 的 概率 落 在 同一 个 64 字 节 缓存 行内 。 但 是 ， 这 
两 个 线程 却 偏偏 被 线程 调度 程序 分 派 到 了 两 个 不 同 的 
CPU 核心 上 运行 ， 而 不 同 的 CPU 核心 各 有 各 的 LI/L2 
缓存 ， 所 以 该 缓存 行 会 被 载 入 这 两 个 核心 的 L1 缓 存 
中 ， 如 图 6-31 所 示 。 如 果 运 行 在 CPU 0 上 的 线程 0 更 
改 了 它 的 变量 A， 那 么 CPU 0 的 L1 缓 存 中 的 这 一 行 就 
被 记录 为 Dirty， 已 变更 ， 则 CPU 0 必须 通知 CPU 1 该 
缓存 行 已 被 更 新 ， 所 以 CPU 1 上 缓存 的 该 行 就 不 能 再 
被 使 用 了 ， 需 要 从 CPU 0 的 L1 缓 存 里 将 其 重新 载 入 到 


CPU 1 的 LI 缓存 。 
Thread 0 Thread 1 
CPU0 CPU 1 
Cache Line 


Cache Line 


6-31 伪 共 享 示 意图 


同 理 ， 如 果 位 于 CPU 1 上 的 线程 1 更 改 了 它 的 变量 
B， 那 么 该 缓存 行 在 CPU 0 里 的 副本 也 要 作废 ，CPU 0 
就 得 从 CPU 1 载 入 最 新 数据 。 每 一 次 更 改 ， 都 要 互 传 
数据 ， 这 代价 太 高 ， 性 能 非常 差 ! 这 种 现象 叫 作 “ 伪 
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共享 ”， 虽 然 变量 A 和 变量 B 一 起 被 读 入 并 处 于 同一 个 
缓存 行 ， 但 是 操作 它们 的 线程 却 被 调度 到 不 同 的 CPU 核 
心 ， 这 种 共享 不 是 我 们 所 希望 的 。 不 同 进 程 之 间 不 会 
出 现 伪 共 享 ， 因 为 不 同 进程 的 数据 不 可 能 被 分 配 到 同 
一 个 4KB 页 面 ， 也 就 没有 可 能 出 现在 同一 个 缓存 行 了 。 

伪 共 享 是 可 以 解决 的 ， 比 如 将 同一 个 进程 的 多 个 
线程 所 操作 的 变量 数据 打 散 到 多 个 不 会 引发 冲突 的 组 
存 行内 存放 ， 也 就 是 在 编译 的 时 候 主动 分 配 到 对 应 
的 地 址 上 ， 这 叫 作 缓存 行 对 齐 (cache line align) 。 
还 有 一 种 做 法 是 进行 缓存 行 填充 ， 如 果 某 个 变量 占 
不 了 一 个 缓存 行 ， 为 了 防止 其 他 变量 与 自己 共享 该 
缓存 行 而 导致 的 潜在 性 能 问题 ， 索 性 在 程序 代码 中 主 
动 生成 一 些 填充 数据 来 将 缓存 行 剩余 容量 塞 满 ， 以 阻 
止 它 与 其 他 变量 共享 该 空间 ， 这 种 方式 对 内 存 浪费 很 
严重 ， 被 称 为 缓存 行 填充 (cache line padding) 。 

既然 线程 0 所 更 新 的 行内 Offset 与 线程 1 所 更 新 的 
不 同 ， 那 么 如 果 不 在 多 个 核心 之 间 同 步 这 些 缓存 ， 这 
两 个 线程 各 自 的 运行 结果 就 不 会 受到 任何 影响 。 但 
是 请 考虑 : CPU 0 迟早 要 将 它 缓存 中 的 这 一 行 写 回 到 
SDRAM, 或 者 被 其 他 行 挤占 ,或 者 程序 主动 要 求 清 
空 缓存 ， 或 者 其 他 原因 。 随 后 ，CPU 1 也 将 这 一 行 写 
入 到 SDRAM， 那 么 ， 如 果 不 在 这 两 个 核心 之 间 同 步 ， 
CPU 0 写 入 SDRAM 的 数据 中 所 包含 的 变量 A， 将 会 被 
CPU 1 携带 的 旧 变量 A 的 内 容 给 覆盖 掉 ， 后 续 任何 程序 
再 次 访问 变量 A， 取 到 的 将 是 过 时 的 内 容 ， 导 致 运算 出 
错 。 这 种 由 于 缓存 不 同步 导致 的 一 份 数 据 在 不 同 的 缓 
存 中 出 现 多 个 不 同 的 副本 的 现象 被 称 为 缓存 不 一 致 。 

那么 ， 为 了 在 多 个 核心 /CPU 之 间 同 步 对 缓存 的 变 
更 ， 就 必须 将 这 些 核心 全 部 相互 连接 起 来 。 


6.3 ”关联 起 来 ， 为 了 一 致 性 


如 果 能 把 所 有 核心 的 L1 缓 存 集中 起 来 ， 让 所 有 
核心 共享 的 话 ， 那 么 自然 就 不 需要 相互 同步 了 ， 因 为 
任何 一 个 核心 更 新 的 数据 ， 其 他 的 核心 去 读 取 的 时 候 
自然 就 是 最 新 的 。 但 是 ， 把 L1 缓 存 给 多 个 核心 共享 ， 
势必 容量 要 做 得 比较 大 ， 而 且 导 线 的 长 度 也 要 增加 ， 
因为 从 缓存 到 其 他 所 有 核心 都 需要 连 线 ， 整 体会 导致 
运行 频率 上 不 去 。 另 外 ， 也 需要 考虑 多 个 核心 与 缓存 
的 连接 方式 ， 如 果 是 使 用 共享 总 线 方式 ， 那 么 频率 上 
不 去 是 因为 寄生 电容 太 大 ， 而 且 需 要 仲裁 ， 效 率 上 不 
去 ， 这 些 咱们 在 上 文中 都 已 经 说 过 。 

所 以 ， 必 须 给 每 个 核心 单独 配备 私有 的 、 独 立 运 
作 的 L1 缓 存 ， 然 后 再 通过 某 种 方式 将 它们 互联 起 来 ， 
相互 通告 更 新 消息 和 数据 。 这 显得 有 些 矛 盾 了 ， 因 为 ， 
如 果 每 一 笔 更 新 都 要 广播 出 去 ， 那 么 实际 上 其 效果 与 把 
工 1 缓存 设置 为 共享 的 方式 是 一 样 的 ， 都 需要 有 一 个 总 
线 /网 络 来 用 于 互联 ， 几 乎 没有 本 质 区 别 。 前 者 是 先 促 
裁 ， 后 访 存 ; 后 者 是 先 访 存 ， 后 同步 ， 如 图 6-32 所 示 。 

但 是 ， 人 们 想到 了 一 些 方法 ， 可 以 让 有 些 更 新 不 
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6-32 ”如 果 不 考 虑 优化 的 话 ， 两 种 方式 没有 本 质 区 别 


必 同 步 到 其 他 核心 缓存 中 去 。 比 如 一 共 2 个 核心 ， 核 
心 0 的 缓存 中 只 存在 缓存 行 0， 而 核心 1 的 缓存 中 只 存 
在 缓存 行 1， 那 么 核心 0 针对 缓存 行 1 的 更 新 有 必要 通 
告 给 核心 1 么 ? 完全 没有 必要 ， 井 水 不 犯 河水 。 如 果 
能 够 过 滤 掉 足够 多 的 广播 通告 ， 那 么 将 L1 缓 存 私 有 化 
而 不 是 共享 化 ， 分 成 多 块 独 立 运作 ， 多 数 访 存 请 求 只 
访问 本 地 缓存 ， 而 不 向 其 他 核心 发 送 任何 消息 ， 则 请 
求 就 不 会 跨越 总 线 /网 络 ， 时 延 不 会 增加 ， 加 上 如 果 将 
核心 间 的 互联 方式 变 为 与 核心 处 在 异步 时 钟 域 ， 这 就 
不 会 拖累 核心 的 运行 频率 了 。 这 样 带 来 的 效果 是 非常 
不 错 的。 这 些 广播 通告 消息 被 称 为 询问 / 嗅 探 (probe/ 
snoop) ， 而 能 够 过 滤 不 必要 广播 的 硬件 模块 被 称 为 
嗅 探 过 滤器 (snoop filter) 。 这 里 面 的 细节 放 在 后 面 
再 介绍 ， 这 也 是 缓存 一 致 性 的 关键 核心 技术 所 在 。 

下 面 先 来 看 看 人 们 主要 是 用 哪些 方式 来 连接 多 个 
核心 以 及 CPU 芯片 的 。 除 了 上 文中 介绍 过 的 共享 总 线 
的 形式 ， 还 有 其 他 一 些 互联 类 型 。 


6.3.1 Crossbar 交 换 和 矩阵 


共享 总 线 的 方式 固然 简单 ， 但 是 其 效率 比较 低 ， 
原因 有 二 : 一 是 必须 串 行 化 访问 ， 多 个 节点 时 分 复 
Я; 二 是 因 底层 电信 号 因素 ， 共 享 总 线 上 无 法 挂 接 太 
多 的 设备 。 我 们 在 第 3 章 最 后 提 到 过 ， 导 线 可 以 容纳 
电荷 ， 接 入 的 设备 节点 越 多 ， 导 线 就 越 长 ， 电 容 就 越 
大 ， 总 线 能 承载 振荡 的 数字 信号 的 频率 就 越 低 。 因 为 
电容 增 大 而 导致 导线 上 的 电压 达到 对 应 值 所 需 的 充 放 
电荷 数量 增加 了 ， 而 电压 和 电阻 恒定 ， 电 流 就 恒定 ， 
那么 达到 对 应 电压 值 的 时 间 也 增加 了 ， 所 以 超频 要 加 
压 同时 加 强 散热 就 是 这 个 道理 。 由 于 功 耗 与 电压 的 平 
方 成 正比 ， 电 压 提 升 会 导致 功 耗 又 增 ， 需 要 加 强 冷 
却 ， 这 就 是 很 多 DIY 玩 家 用 液 氮 来 冷却 从 3GHz 标 准 


频率 超频 到 5GHz 的 CPU 的 原因 。 而 如 果 CPU 的 体质 不 
好 ， 时 钟 频 率 上 升 之 后 ， 对 应 的 逻辑 电路 还 没 来 得 及 
做 出 对 应 的 翻转 ， 下 游 的 寄存 器 就 被 触发 锁定 的 话 ， 
那么 锁 住 的 就 是 错误 的 值 ， 这 就 是 有 时 候 超 频 之 后 会 发 
生花 屏 、 乱 码 甚至 直接 死机 等 各 种 奇 栈 错误 的 原因 。 

我 们 在 第 1 章 中 介绍 过 Crossbar (交叉 开关 ) ， 
其 可 以 实现 数据 的 传递 ， 还 可 以 通过 配置 将 发 送 方 
的 数据 交换 到 不 同 的 接收 方 。 其 实 ， 在 很 早 的 时 候 ， 
Crossbar 就 存在 了 ， 这 个 词 也 正 是 取 自 那个 时 代 。 如 
图 6-33 所 示 ， 一 部 电话 想 要 和 其 他 电话 连通 ， 需 要 有 
人 帮忙 拨 动 开关 与 某 个 触 点 接触 上 。 早 期 有 接线 员 把 
线头 插入 到 对 应 的 电话 线路 插 孔 中 完成 接线 ， 后 来 出 
现 更 灵活 的 接线 方式 ， 引 入 了 一 些 机 械 装置 ， 图 6-34 
就 是 一 个 机 械 式 Crossbar 装 置 。 


6-34 机械 式 Crossbar 


“Crossbar” 的 意思 首先 是 要 Cross， 然 后 有 
bar， 合 起 来 就 是 : 在 每 个 交叉 点 上 ， 都 有 一 个 开关 来 
控制 这 个 交叉 点 是 否 连通 。 上 文中 的 例子 都 是 一 点 对 
多 点 的 通信 方式 。 随 着 电子 技术 的 发 展 ， 机 械 控制 向 
程序 控制 逻辑 电路 发 展 ，Crossbar 也 自然 改 为 由 程序 
控制 的 电路 去 拨 动 开关 而 不 是 用 人 手 ， 同 时 开关 也 由 
机 械 式 改 为 MOS 管 ， 支 持 了 多 点 对 多 点 的 两 两 通信 。 
但 是 “在 交叉 处 有 一 个 开关 ”这 个 本 质 ， 依 然 没 有 变 
化 。 图 6-35 为 一 个 8X8 Crossbar 的 原理 图 。 


i 
触 点 已 接触 触 点 未 接触 
图 6-35 8X8 Crossbar 电 路 示意 图 

这 个 结构 相当 于 在 两 层 正 交 的 导线 格 栅 交 叉 的 
地 方 用 一 个 MOS 管 连接 起 来 ， 使 用 控制 线 控制 MOS 
管 的 导 通 与 截止 ， 从 而 控制 这 个 交叉 点 是 否 能 够 连通 
上 下 两 根 导 线 。 图 中 ， 节 点 5 和 8、 节 点 1 和 10、 节 点 2 
和 13 的 交叉 点 均 被 导 通 ， 也 就 意味 着 53 和 8 之 间 可 以 通 
信 、1 和 10 之 间 可 以 通信 、2 和 13 之 间 也 可 以 通信 ， 而 
且 这 三 对 通信 之 间 是 可 同时 进行 的 。 可 以 看 出 在 这 个 
Switch 中 ， 可 以 做 到 无 阻塞 交换 ， 也 就 是 在 理想 情况 
下 ， 每 个 端口 都 与 其 他 某 个 端口 配对 连接 收发 数据 ， 
互 不 冲突 ， 不 存在 由 于 开关 数量 不 够 而 必须 等 待 的 
端口 。 但 是 比如 节点 7 与 节点 8 通信 时 ， 节 点 6 就 不 能 
与 节点 8 通信 ， 这 种 冲突 并 非 由 于 硬件 资源 不 够 而 导 
致 ， 所 以 该 Switch 依然 属于 无 阻塞 的 。 

一 般 情况 下 ， 一 个 点 只 能 和 另 一 个 点 通信 ， 一 些 
特殊 情况 下 ， 比 如 广播 /组 播 场景 ， 一 个 点 可 能 会 同 
时 与 其 他 所 有 节点 或 者 几 个 节点 通信 ， 但 是 必须 经 过 
严格 的 上 层 程序 控制 ， 此 时 在 同一 行 或 者 同一 列 上 ， 
就 会 出 现 多 于 一 个 开关 同时 被 导 通 的 情况 。 比 如 图 
6-35 中 ， 如 果 再 将 节点 5 和 9 的 交叉 开关 导 通 的 话 ， 那 
么 节点 5、8、9 这 三 个 节点 会 处 于 同一 个 广播 域 ， 共 
享 一 条 总 线 ， 至 于 谁 来 发 起 通信 ， 会 不 会 有 两 个 节点 
同时 试图 发 起 通信 而 导致 冲突 ， 这 就 完全 应 该 由 位 于 
每 个 节点 上 与 该 交换 矩阵 连接 的 总 线 控制 器 以 及 配套 
的 控制 程序 来 控制 了 ， 比 如 组 播 /广播 控制 程序 、 底 
层 数据 通路 仲裁 程序 等 。 这 些 程序 运行 在 不 同 的 器 件 
和 层次 上 ， 比 如 组 播 /广播 控制 程序 多 半 运 行 在 每 个 
节点 的 主 控 CPU 里 ， 而 底层 通路 仲裁 程序 则 多 半 运 行 
在 Crossbar 总 线 控制 器 的 专用 电路 中 ， 而 且 多 半 是 不 
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可 编程 的 写 死 的 硬件 逻辑 。 图 中 的 “节点 ”可 以 是 任 
意 器 件 ， 可 以 是 CPU、 内 存 ， 也 可 以 是 某 专用 电路 ， 
还 可 以 是 同一 个 硬件 模块 的 发 送 端 或 者 接收 端 电路 模 
块 。 图 示 每 路 只 有 一 根 导线 ， 实 际 上 芯片 内 部 几乎 都 
是 并 行 总 线 ， 比 如 32 位 宽 ， 这 就 是 说 图 示 的 每 一 路 其 
实 是 有 32 根 导线 的 。 明 白 了 上 述 原 理 ， 那 么 整个 器 件 
的 交换 带宽 就 很 好 计算 了 ， 即 为 电路 时 钟 震荡 频率 X 
位 宽 X 最 大 通信 节点 对 的 数量 。 另 外 ， 也 可 以 算出 对 
于 一 个 n 位 宽 、N 对 M 个 节点 通信 的 Crossbar， 其 需要 
的 交叉 开关 数量 为 "XNXM。 

仔细 观察 这 张 图 还 会 发 现 一 个 问题 : 节点 7 和 节 
点 6 之 间 无 法 通信 。 如 果 这 是 故意 这 么 设计 的 ， 没 问 
题 ， 然 而 一 般 情 况 下 ， 都 是 要 求 任意 两 个 节点 间 都 可 
以 通信 的 。 如 果 要 实现 之 ， 等 价 于 把 M 当 作 N， 也 就 
是 说 ， 行 节点 和 列 节 点 是 同一 批 ， 但 是 分 别 使 用 各 自 
的 发 送 端 和 接收 端 电路 连 入 矩阵 。 那 么 ， 支 撑 " 位 宽 
总 线 N 个 节点 之 间 互 相通 信 的 Crossbar 需 要 的 交叉 开 
关 的 数量 就 为 "XY。 这 里 有 个 学 名 ， 如 果 一 个 交换 
网 络 的 连接 方式 只 允许 一 批 节点 向 另 一 批 节点 发 送信 
息 ， 这 叫 作 单 边 〈single sided) 网 络 或 者 单 工 网 络 ; 
如 果 人 允许 任意 一 个 节点 向 任意 另 一 个 节点 发 送 数据 ， 
就 叫 作 双边 〈two sided) 网 络 或 者 双 工 网 络 。 

还 有 一 种 稍微 不 同 的 设计 方式 ， 比 如 图 6-36 所 示 
的 结构 。 图 中 展示 的 是 一 个 4X 4 交换 矩阵 ， 黑 色 圆 点 
表示 触 点 开关 。 只 要 初中 物理 及 格 的 读者 都 能 看 懂 这 
张 图 ， 通 过 闭合 不 同 的 开关 或 者 同时 闭合 多 个 开关 ， 
它 可 以 允许 任意 一 个 源 端 连接 任意 一 个 目标 端 ， 并 且 
同时 支持 4 个 连接 ， 还 支持 广播 、 组 播 。 通 信 的 发 起 
端 将 它 要 连通 的 目标 端的 地 址 〈 格 式 并 不 重要 ， 比 如 
MAC 地 址 、 耳 地址 、WWN 地 址 等 ， 或 者 就 是 比如 4 位 

合 ， 可 以 表示 16 个 地 址 ) 写 入 地 址 译 码 器 ， 译 码 器 

根据 这 个 地 址 ， 按 照 写 好 的 译 码 逻辑 拨 动 Crossbar 内 
部 的 开关 ， 也 就 是 输出 一 串 信号 ， 这 些 信号 中 的 每 一 
位 0 或 者 1 直接 控制 了 图 示 Crossbar 中 的 每 个 开关 ， 比 
如 1 控制 其 闭合 ，0 控 制 其 断 开 。 


Senders Receivers 


Source 0 Target 0 
Source 1 Target 1 
Source 2 Target 2 
Source 3 Target 3 
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图 6-36” 另 一 种 Crossbar 示 意图 
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点 阵 式 Crossbar 的 最 大 优势 就 是 时 延 极 低 ， 因 为 
任意 两 点 通信 和 只 需要 经 过 一 个 开关 联通 即 可 ， 所 以 针 
对 很 多 要 求 极 低 时 延 、 极 高 性 能 的 场景 来 说 ， 使 用 这 
种 Crossbar 是 不 错 的 。 

来 鉴赏 一 下 电路 Crossbar 鼻 祖 的 尊严 ， 如 图 6-37 
所 示 ， 自 己 体会 吧 。 如 果 把 这 个 大 Crossbar 做 成 集成 
电路 ， 放 到 芯片 里 无 非 也 就 是 lmmz 左 右 的 面积 。 


图 6-37 


点 阵 式 Crossbar 

其 实在 第 1 章 中 就 已 经 为 大 家 介绍 过 基于 Mux/ 
Demux 的 Crossbar， 还 记得 当时 为 了 解决 键盘 输入 
个 位 、 十 位 、 百 位 交换 的 问题 而 设计 的 那个 交换 电 


路 么 ? 第 1 章 图 1-108 所 示 的 网 络 数据 交换 机 的 示意 
图 一 一 FIFO 队 列 +Mux/Demux 即 可 组 成 一 个 简单 的 数 
据 交 换 矩 阵 。 目 前 在 数字 处 理 芯片 内 部 几乎 都 采用 的 
是 基于 Mux/Demux 的 Crossbar。 

图 6-38 为 一 个 真实 Crossbar 的 原理 图 ， 该 
Crossbar 用 于 某 路 由 设备 内 部 ， 通 过 routing tag 这 个 
控制 信号 来 控制 复 用 器 将 开关 切 到 对 应 的 输出 线路 
上 。 最 上 方 是 32 组 6 位 宽 导线 组 ， 一 共 32X 6 根 导 线 。 
这 32 组 导线 的 每 一 组 都 接 到 一 个 32 对 1 的 复 用 器 上 ， 重 
复 这 个 过 程 ， 接 32 次 ， 那 便 有 了 32 个 输出 端 。 同 样 ， 
控制 信号 也 要 有 32 路 ， 分 别 接 到 这 32 个 复 用 器 上 。 这 
就 组 成 了 一 个 32X32 的 Crossbar， 读 者 可 以 自己 推演 
一 下 。 任 何 输入 信号 都 可 以 被 连通 到 任何 输出 线路 
上 ， 而 且 只 要 不 冲突 (比如 2 个 输入 端 要 争 抢 连 通 同 
一 个 输出 端 ， 此 时 必须 要 有 仲裁 机 制 来 排序 ) ， 可 以 
允许 32 个 输入 端 各 自 连通 一 个 输出 端 ， 并 且 这 32 路 数 
据 可 以 并 行 同 时 发 送 。 这 就 是 无 阻塞 交换 矩阵 。 

图 6-39 为 一 个 4X4 Crossbar 的 内 部 设计 ， 其 架构 
上 与 图 6-38 所 示 的 Crossbar 相 同 ， 这 里 给 出 的 是 内 部 
细节 .可 以 看 到 ， 实 际 产品 中 是 在 器 件 内 部 加 了 很 多 缓 
冲 FIFO 队 列 的 ， 此 外 还 有 多 个 译 码 器 /仲裁 器 ， 实 际 
设计 远 比 想象 得 要 复杂 。 


32 sets of 
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32 sets of 
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32 sets of output 6-bit data 


图 6-38 ” 另 一 种 Crossbar 示 意图 
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基于 复 用 器 的 Crossbar 被 广泛 应 用 到 了 CPU、 
RAM、1/O 控 制 器 这 三 者 之 间 的 互联 场景 。 图 6-40 为 
Fujitsu 大 型 机 SPARC Enterprise M9000 内 部 的 互联 示 
意图 。 双 Crossbar 的 每 一 个 Crossbar 都 有 368.5GB/s 的 
带宽 。 如 果 一 个 Crossbar 发 生 故 障 ， 系 统 可 在 重启 时 
隔离 故障 Crossbar， 使 用 另外 一 个 Crossbar 重 新 启动 。 

图 6-41 为 Sun 的 UltraSPARC T2 处 理 器 的 框图 ， 中 间 
标明 CCX 的 模块 就 是 Crossbar。 可 以 看 到 ， 其 面积 占据 
了 相当 一 部 分 ， 因 为 需要 大 量 的 导线 和 Mux/Demux。 

Crossbar 由 于 可 以 一 跳 直 达 ， 节 点 与 节点 之 间 的 


导线 容量 小 ， 而 且 可 以 实现 多 节点 在 没有 冲突 的 前 提 
非 Crossbar 系 统 Crossbar 系 统 
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下 并 行 收发 数据 ， 
由 于 并 行 的 缘故 ， 
互联 方式 。 

图 6-42 为 一 个 Crossbar 级 联 示 意图 。 这 是 一 个 
128X256 的 Crossbar， 也 就 是 允许 128 路 输入 信号 灵活 
输出 到 256 路 线路 上 去 。 这 种 不 对 称 也 不 难 理解 ， 比 
如 输出 线路 就 是 很 多 ， 好 比 从 2 车 道 一 下 走 入 4 车 道 。 
但 是 如 果 2 车 道 和 4 车 道 的 车 速 都 是 一 样 的 话 ， 那 么 就 
不 能 确保 4 车 道 的 利用 率 了 。 所 以 在 这 种 不 对 称 情 况 
下 ， 一 般 是 线路 少 的 一 方 时 钟 频率 较 高 ， 而 线路 多 的 一 
方 时 钟 频率 较 低 ， 如 果 两 边 的 频率 刚好 是 两 倍 的 关系 ， 
那么 就 可 以 在 相同 的 时 隙 内 ， 从 输入 线路 中 获取 两 个 数 
据 帧 ， 然 后 利用 两 条 输出 线路 各 输出 一 个 数据 帧 ， 从 而 
达到 带宽 适 配 。 我 们 接 下 来 看 一 下 具体 的 级 联 形式 。 

首先 ，128 路 输入 被 逻辑 分 割 为 4 部 分 : 0 一 31、 
32 一 63、64 一 95、96 一 127。 每 路 输入 为 6 位 宽 ， 也 
就 是 6 根 并 行 导线 ， 每 一 位 都 接 入 一 个 独立 的 32 X32 
的 Crossbar， 所 以 一 组 是 6 个 Crossbar， 每 个 Crossbar 
有 32 路 输入 和 32 路 输出 。 同 时 ， 将 输入 端 信号 复制 8 
份 ， 每 一 份 再 接 入 相同 的 一 组 〈6 个 ) Crossbar。 图 中 
的 粗 黑 线 表示 32 路 输出 信号 ， 为 了 简化 就 不 画 32 根 线 
了 。4 组 输入 信号 都 循环 上 述 拓扑 ， 然 后 各 输出 32 路 
信和 号， 再 将 这 4X32 路 信号 输入 到 一 个 4-1 复 用 器 (图 
中 只 画 了 2 条 粗 线 是 为 了 简化 ， 实 际 上 有 4 条 ) ， 最 终 
输入 1X32 路 信号 ，8 份 相 乘 ， 就 得 到 256 路 的 输出 信 
号 。 通 过 控制 信号 来 控制 底部 复 用 器 ， 从 而 可 以 以 特 
定 的 频率 将 128 路 输入 信号 输出 到 256 路 输出 线路 上 。 

单个 Crossbar 容 量 有 限 ，Crossbar 之 间 级 联 之 后 再 
级 联 ， 所 有 Crossbar 就 组 成 一 个 逻辑 更 大 的 Crossbar， 
而 且 依 然 可 以 直接 两 点 通信 。 如 图 6-43 所 示 的 方式 ， 
看 上 去 很 像 多 个 交换 矩阵 的 级 联 ， 每 个 2X 2 Crossbar 
都 是 独立 存在 的 。 这 样 ， 可 以 利用 低 成 本 的 12 个 2X2 
Crossbar 堆 又 成 一 个 8X8 Crossbar。 这 个 Crossbar 有 两 
种 运行 模式 ， 一 种 是 基于 连接 的 交换 模式 ， 另 一 种 则 


所 以 其 频率 可 以 做 到 比较 高 ， 同 时 
其 总 交换 带宽 会 远 高 于 共享 总 线 的 
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6-40 ”Fujitsu 大 型 机 的 系统 总 线 架构 
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是 包 交 换 模 式 。 我 们 假设 利用 这 个 矩阵 设计 一 个 用 于 
交换 以 太 网 帧 的 以 太 网 交换 机 。 

以 太 网 交换 机 是 要 靠 MAC 地 址 一 端口 对 应 表 做 交 
换 的 ， 每 台 交 换 机 都 维护 这 张 表 ， 并 不 断 学 习 ， 从 而 
才 可 能 实现 用 一 根 线 连接 两 台 交 换 机 之 后 交换 机 马上 
就 会 知道 ， 凡 是 目标 地 址 是 对 方 某 个 端口 的 流量 都 需 
要 从 级 联 线 传 过 去 。 当 然 ， 以 太 网 交换 机 内 部 其 实 有 
一 个 自学 习 模块 ， 将 从 各 个 端口 抓 取 的 MAC 地 址 记录 
到 端口 号 -MAC 地 址 映射 表 中 。 交 换 机 收 到 一 个 以 太 
网 帧 之 后 ， 电 路 查 表决 定 该 帧 的 目标 端口 号 ， 然 后 将 
这 个 帧 发 送 到 与 源 端口 相连 接 的 2X 2 交换 矩阵 ， 在 这 


图 6-41 ”传统 点 阵 式 Crossbar 应 用 实例 (2) 


里 交换 到 目标 端口 。 

如 果 是 采用 基于 连接 的 交换 模式 ， 则 会 有 一 个 总 
控 模 块 来 计算 出 源 端口 到 目的 端口 应 该 走 哪 几 个 Mux/ 
Demux， 以 及 在 这 几 个 Mux/Demux 上 各 自 应 该 选 哪 条 
路 ， 然 后 直接 将 对 应 的 控制 信号 并 行 输送 到 牵扯 到 的 
Mux/Demux 上 。 这 就 相当 于 在 源 和 目标 端口 之 间 打 
通 了 一 条 实 实在 在 的 导线 连接 ， 建 立 通 信 前 ， 需 要 先 
在 电路 层面 建立 连接 。 这 就 是 所 谓 基于 连接 的 交换 网 
络 。 建 立 连 接 之 后 ， 只 要 源 端 口 把 数据 放置 到 端口 发 
送 寄 存 器 中 ， 对 应 的 数据 信号 就 会 顺 着 这 条 通路 输送 
到 目标 端口 的 接收 寄存 器 前 端 ， 数 据 沿 着 通路 传递 的 
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Crossbar 级 联 示 意图 (1) 
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图 6-43 ”Crossbar 级 联 示意 图 (2) 


过 程 可 以 在 一 个 时 钟 周期 内 完成 。 在 这 12 个 2X2 Crossbar 中 ， 可 
以 同时 存在 多 条 连接 ， 并 行 传递 多 路 数据 ， 其 总 带宽 之 和 被 称 为 
该 交换 矩阵 的 总 交换 带宽 。 

仔细 观察 上 图 可 以 发 现 ， 该 网 络 并 非 无 阻塞 (所 有 端口 之 
间 的 每 个 都 可 以 与 其 他 某 个 端口 配对 然后 收发 数据 ， 没 有 由 于 连 
接 数量 不 够 而 被 迫 等 待 的 端口 ) 。 比 如 图 中 的 蓝 色 线 和 红色 线 表 
示 已 经 建立 了 连通 关系 。 那 么 ， 此 时 111 节 点 如 果 要 与 101 节 点 发 
起 通信 ， 就 没有 可 用 路 径 了 ， 必 须 等 待 。 因 为 有 阻塞 ， 线 路 不 够 
用 ， 所 以 需要 仲裁 。 做 成 完全 无 阻塞 的 也 不 是 不 可 以 ， 那 就 需要 
加 入 更 多 的 Crossbar， 成 本 就 会 提升 。 如 图 6-44 所 示 ， 只 有 在 特定 
条 件 下 才能 做 到 无 阻塞 交换 。 

显然 ， 基 于 连接 的 交换 很 不 灵活 ， 效 率 比较 低 ， 当 没有 可 
用 的 通路 的 时 候 ， 其 他 通信 就 需要 等 待 ， 而 已 被 占用 的 通路 上 可 
能 有 一 些 时 间 又 根本 没有 有 效 的 数据 在 传递 ， 因 为 发 送 方 并 不 是 
时 刻 都 在 发 送 数 据 。 在 第 1 章 中 曾经 将 FIFO 队 列 与 Crossbar 结 合 
起 来 ， 第 4 章 中 也 曾 介 绍 过 流水 线 的 运作 模式 ， 尤 其 是 流水 线 的 
思路 ， 其 用 在 很 多 地 方 都 颇 有 成 效 。 对 于 这 个 基于 连接 的 交换 矩 
阵 ， 我 们 是 否 可 以 对 其 进行 改造 。 首 先 ， 源 端的 信号 经 过 的 通路 
比较 长 ， 时 延 毕竟 很 高 ， 这 样 会 极 大 影响 时 钟 频率 ， 如 果 能 够 让 
数据 一 跳 一 跳 地 分 成 多 步 向 目标 端 移动 ， 在 每 一 步 的 前 后 方 放置 
对 应 的 寄存 器 或 者 FIFO 队 列 缓 冲 ， 形 成 传递 流水 线 ， 这 样 便 会 极 
大 地 提升 整体 时 钟 频率 以 及 并 发 性 ， 可 以 同时 有 多 个 数据 包 在 传 
递 ， 效 率 就 会 高 很 多 。 这 就 是 包 交 换 方式 ， 实 现 这 种 方式 ， 还 需 
要 改进 一 个 地 方 ， 那 就 是 让 每 个 X2 Crossbar 各 自 维护 一 个 路 由 
表 ， 并 判断 收 到 的 数据 包 要 向 自己 的 哪个 端口 转发 。 相 对 于 集中 
控制 来 讲 ， 分 布 式 控制 更 加 高 效 ， 因 为 每 次 查询 的 表 的 范围 可 以 
限制 得 较 小 ， 对 于 提高 时 钟 频率 很 有 帮助 。 每 个 Crossbar 可 以 通过 
预先 静态 配置 路 由 表 ， 也 可 以 通过 自学 习 的 方式 来 形成 路 由 表 。 

这 种 一 跳 一 跳 的 转发 数据 包 模式 学 术 上 被 称 为 多 级 网 络 
(Multi-Stage Network) ， 也 就 是 需要 经 过 多 步 才能 抵达 目标 端 
口 。 图 6-43 中 所 示 的 网 络 ， 其 每 个 Crossbar 的 路 由 方式 是 定 死 的 ， 
被 称 为 Omega 网 络 (Omega Network) ， 具 体 实现 原理 有 兴趣 的 读 
者 可 自行 了 解 。IBM eServer p690 服务 器 所 使 用 的 多 个 Power CPU 
与 内 存 之 间 的 互联 使 用 的 就 是 Omega 网 络 。 除 了 Omega 网 络 之 | 
外 ， 还 有 Banyan、Delta、Clos、Bnutterfly 等 拓扑 和 路 由 形式 。 而 之 ss ww вы ` ' €C XA |. 


只 有 在 特定 条 件 下 才能 做 到 无 阻塞 交换 


图 6-44 
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前 那 种 集中 控制 的 、 基 于 电路 连接 的 方式 ， 学 术 上 被 
称 为 单 级 网 络 (Single-STage Network) ， 因 为 电路 已 
经 连接 好 了 ， 包 在 一 个 时 钟 周期 内 就 可 以 从 源 传 到 目 
的 。 基 于 连接 的 交换 在 节点 数量 小 的 时 候 比较 高 效 ， 
但 是 当 节点 数量 多 了 之 后 ， 包 交换 模式 就 比较 合适 。 

图 6-45 给 出 了 一 个 利用 16X 16 Сгоѕѕраг 21% 
而 成 的 256 X 256 Crossbar。 当 然 ， 这 是 极 早期 的 设 
计 ， 用 了 很 多 张 板 子 。 


图 6-45 “Crossbar 级 联 实例 图 


6.3.2 Ring 


用 Crossbar 互 联 的 优点 是 时 延 低 ， 因 为 到 任 
何 一 个 节点 走 过 的 路 径 短 ， 如 果 不 级 联 ， 走 几 个 
Mux/Demux 风 辑 电 路 就 可 以 了 ; 如果 利 用 点 阵 式 
Crossbar， 经 过 一 个 开关 就 可 以 了 。 但 是 为 了 做 到 多 
点 任意 直 连 ， 开 关 或 者 Mux/Demux 的 数量 将 会 非常 庞 
大 ， 占 用 很 大 的 电路 面积 ， 成 本 过 于 高 晶 。 于 是 人 们 
设计 出 了 时 延 高 一 些 ， 但 是 非常 节省 电路 面积 ， 同 时 
又 可 以 达到 较 高 时 钟 频率 和 吞吐 量 的 新 互联 方式 
Ring (%) 。 

所 有 节点 都 有 发 送 和 接收 两 套 电路 ， 这 就 像 该 
节点 的 左右 手 ， 左 手 进 右手 出 。 它 们 手 拉手 在 顺 时 针 
和 逆 时 针 方 向 各 形成 一 个 环 ， 就 像 大 型 城市 地 铁 环线 
一 样 ， 数 据 在 这 个 环线 上 传递 : 从 左手 进来 ， 如 果 一 
看 不 是 给 自己 的 ， 那 就 从 右手 再 发 出 去 ， 如 果 是 给 自 
己 的 ， 就 收 进 来 处 理 ， 不 再 向 外 发 送 。 每 个 器 件 都 有 
自己 的 地 址 ID， 从 环 上 各 取 所 需 ， 只 要 碰 到 带 有 自 
己 ID 标签 的 数据 包 ， 就 收 进来 ， 否 则 就 继续 转发 数 
据 到 下 一 站 ， 数 据 包 继 续 向 下 传递 。 这 样 ， 每 个 节点 
间 的 线路 就 会 非常 简单 ， 长 度 也 会 很 短 ， 因 为 它 只 连 
接 了 两 个 端点 ， 而 不 是 像 Switch 一 样 多 点 互联 ， 那 么 
其 运行 频率 自然 就 可 以 非常 高 。 如 果 把 导线 数量 (位 
Ж) 增加 ， 比 如 增 到 256 位 位 宽 的 话 ， 那 么 两 点 间 的 
传输 吞吐 量 将 会 非常 高 ， 达 到 每 秒 数 十 兆 字 节 不 成 问 
题 。 但 是 其 代价 就 是 时 延 会 增加 ， 因 为 随 着 环 上 节点 


数量 的 增加 ， 数 据 传递 的 跳 数 也 就 增加 了 。 对 于 总 线 
或 者 单 级 Crossbar 网 络 ， 任 意 两 点 间 一 跳 直 达 ， 而 手 
拉手 传递 ， 数 据 可 能 会 经 过 多 跳 才能 传 过 来 。 如 果 目 
标 节点 在 自己 旁边 ， 一 跳 即 可 ， 速 度 会 高 于 总 线 和 
Crossbar， 因 为 Ring 的 频率 非常 高 ， 位 宽 也 大 ; 但 是 
目标 如 果 相隔 自己 较 远 ， 就 得 多 跳 。 这 也 是 为 什么 要 
同时 设立 顺 时 针 和 逆 时 针 两 个 环 的 原因 ， 到 目标 节点 
走 哪个 环 更 近 ， 就 上 哪个 环 。 

这 里 请 深入 思考 几 个 问题 : 这 个 环 是 否 是 一 个 
共享 环 ? 是 否 同 一 时 刻 只 允许 2 个 节点 通信 ? 环线 上 
的 电势 是 否 处 处 相等 ? 上 面 这 三 个 问号 ， 如 果 答案 是 
肯定 的 话 ， 那 么 这 个 环 就 与 总 线 没 有 区 别 了 ， 只 不 过 
总 线 两 端 是 开路 的 ， 如 果 把 总 线 两 端 连接 成 一 个 回路 
的 话 ， 看 上 去 也 是 个 环 ， 其 本 质 依然 还 是 一 个 总 线 。 
所 以 上 述 第 一 个 问号 的 答案 就 是 “是 ”， 其 他 都 是 
“ 否 ”。 总 线 是 共享 的 没 错 ， 但 是 Ring 也 是 共享 的 ， 
只 不 过 与 总 线 的 排他 性 共享 不 同 ， 总 线 同一 时 刻 只 允 
许 2 点 通信 ， 而 这 个 环 同 一 时 刻 可 以 允许 多 点 通信 。 
如 果 环 上 有 8 个 点 ， 其 中 2 个 点 正在 传递 数据 ， 那 么 另 
外 2 个 点 也 可 以 同时 传递 数据 。 这 相当 于 有 一 条 永 不 
停止 的 环形 传送 带 ， 站 点 1 往 传送 带 上 扔 一 份 贴 有 目 
的 为 站 点 2 标签 数据 ， 与 此 同时 ， 站 点 7 也 可 以 往 传 
送 带 上 扔 一 份 贴 有 目的 为 站 点 8 的 数据 ， 传 送 带 往 前 
走 ， 当 站 点 1 的 数据 被 传送 到 站 点 2 时 ， 站 点 2 将 其 收 
入 ， 与 此 同时 站 点 8 可 能 也 收 到 了 站 点 7 发 送 的 数据 并 
将 其 收入 ， 这 样 多 个 节点 之 间 可 以 并 行 地 收发 数据 。 
这 样 算 下 来 ， 这 个 环 的 总 传输 带宽 ， 是 所 有 相 邻 的 
两 个 站 点 之 间 传输 带宽 的 总 和 ， 其 可 达 每 秒 数 百 吉 
字 节 。 

如 图 6-46 所 示 ， 左 下 角 和 上 方 的 两 个 拓扑 其 实 是 
同一 回 事 ， 上 面 的 可 以 说 是 线 状 共享 总 线 ， 下 面 的 是 
环 状 共享 总 线 。 但 是 右 下 角 的 拓扑 就 完全 不 同 了 ， 每 
个 节点 都 把 环 路 上 的 信号 终结 掉 ， 然 后 再 重新 发 起 ， 
每 两 个 节点 间 的 环 路 都 是 独立 运作 的 。 有 不 少 人 也 将 
Ring 网 络 也 称 为 “环形 总 线 ”， 这 可 能 会 给 人 一 种 误 
导 。“ 总 线 ” 这 个 词 已 经 成 为 一 种 泛 指 ， 泛 指 那些 用 
于 传递 数据 的 导线 ， 而 不 关心 是 多 点 共享 、 点 对 点 交 
换 ， 还 是 多 点 环 路 连接 。 
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这 种 环 路 由 于 需要 一 跳 一 跳 地 传递 数据 ， 所 以 也 
属于 一 种 多 级 网 络 。 节 点 数量 较 少 的 时 候 ， 总 线 效率 
较 高 ，Crossbar Switch 效率 最 高 ， 但 是 总 线 受 制 于 技 
术 原 因 、Switch 受 制 于 成 本 原因 ， 两 者 都 无 法 扩展 到 
太 多 节点 。Ring 网 络 的 时 延 增加 了 ， 但 是 却 可 以 以 最 
低 的 成 本 和 可 接受 的 时 延 扩展 到 很 多 节点 。 

图 6-47 为 Intel 某 代 CPU 内 部 所 使 用 的 Ring 网 络 ， 
蓝 色 方块 为 包含 L1、L2 缓 存 的 核心 ; 深 绿色 方块 
为 L3 缓 存 ， 即 为 LLC; 浅 绿色 方块 为 L3 缓 存 控制 器 
(CBOX, Cache Controller BOX) 。LLC 被 分 为 多 个 
分 片 连接 在 Ring 网 络 上 ， 而 不 是 集中 在 一 起 ， 分 散 开 
之 后 ， 就 能 保证 每 个 核心 不 至 于 跨越 太 长 的 距离 访问 
LLC， 至 少 有 些 分 片 可 以 离 得 比较 近 ， 缓 存 行 按照 地 
址 位 的 高 若干 位 进行 索引 以 决定 放 在 哪个 分 片 中 ; Ж 
红色 部 分 为 SDRAM 内 存 控 制 器 ， 其 中 Home Agenti 
一 个 实现 缓存 一 致 性 的 部 件 〈 后 文中 会 有 介绍 ) ; W 
色 部 分 为 用 于 多 芯片 间 互联 的 QPI 网 络 控制 器 C FX 
就 会 介绍 ) 以 及 用 于 连接 外 部 IO 设备 的 PCIE 总 线 控 
制 器 (VO 相关 内 容 详 见 第 7 章 ) 。 所 有 上 述 部 件 ， 全 
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都 连接 到 Ring 上 。 可 以 看 到 ， 柳 色 的 色 块 表示 Ring 网 
络 控 制 器 ， 其 上 接 L1L2 缓 存 ， 下 接 Ring 网 络 ， 将 L1/ 
L2 发 出 的 请 求 载 入 到 环 上 ， 或 者 从 环 上 取出 发 给 自 
己 的 请 求 然后 发 送 给 L1/L2 缓 存 控制 器 。 可 以 看 到 ， 
图 中 有 逆 时 针 和 顺 时 针 传送 数据 的 两 条 环 。 单 方向 的 
环 传送 带 可 并 行 传送 256 位 数据 ， 也 就 是 说 有 256 根 数 
据 导线 ， 运 行 在 很 高 的 时 钟 频 率 上 ， 每 个 时 钟 周期 将 
数据 向 前 推进 一 站 ， 也 就 是 两 个 相 邻 站 点 之 间 的 256 
位 /32 字 节 数 据 传送 只 需要 1 个 时 钟 周期 。Intel 在 2017 
年 发 布 的 代号 Skylake-EX 的 CPU 转 为 使 用 图 6-50、 
6-56 和 图 6-58 中 所 示 的 2D Mesh 架 构 来 互联 多 个 核心 ， 
因为 随 着 核心 数量 的 提升 ，Ring 的 扩展 性 成 为 了 限 
制 ， 导 致 任意 两 个 核心 之 间 的 路 径 长 度 平均 值 增加 ， 
访问 时 延 过 高 。 

图 6-48 为 一 个 环 的 局 部 示意 图 ， 训 括 了 两 个 站 
点 ， 可 以 首尾 相 接 ， 串 接 更 多 站 点 。 其 本 质 上 就 是 将 
多 个 FIFO 串 接 起 来 ， 这 里 可 以 返回 到 第 1 章 回顾 一 下 
关于 FIFO 的 介绍 。 上 一 站 可 以 向 本 站 的 FIFO 中 写 入 
数据 ， 本 站 的 模块 如 果 有 数据 要 发 送 ， 也 可 以 向 本 站 
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图 6-47 Іше! 某 代 CPU 内 部 的 核心 、 缓 存 、 主 存 的 连接 方式 示意 图 
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中 插入 数据 ， 这 会 导致 双 写 冲突 ， 所 以 必须 确定 优先 
级 ， 那 就 是 本 站 需要 临时 插入 数据 时 ， 上 一 站 就 不 能 
往 本 站 发 送 数据 ， 所 以 本 站 要 向 上 一 站 输出 写 使 能 信 
号 。 同 时 ， 本 站 也 需要 从 FIFO 中 读 取 那些 发 送 给 自己 
的 数据 ，FIFO 队 列 前 置 一 个 比较 器 ， 比 较 每 个 请 求 的 
目标 地 址 ， 匹 配 则 通过 译 码 器 控制 Mux 将 对 应 数据 读 
出 输送 给 环 收发 控制 器 ， 后 者 继而 需要 更 新 FIFO 的 读 
指针 。 整 个 Ring 在 同一 个 时 钟 域 以 同 频率 同步 运行 ， 
由 于 存在 双 写 冲突 ， 本 站 用 写 使 能 信号 制约 着 上 一 
站 ， 所 以 两 个 站 点 之 间 不 能 使 用 异步 FIFO。 

在 图 6-48 中 还 可 以 看 到 一 个 情况 ， 就 是 两 个 Ring 
之 间 通 过 两 条 连接 对 接 了 起 来 ， 因 为 所 有 的 LLC 分 片 
和 所 有 的 核心 都 必须 可 以 做 到 两 两 相互 访问 ， 所 有 跨 
环 访问 的 请 求 就 必须 经 过 主干 线 ， 主 干线 两 端的 Ring 
控制 器 比较 特殊 ， 其 会 维护 一 个 路 由 表 ， 以 决定 每 


输送 给 上 一 站 的 写 使 能 
信号 。 我 写 我 自己 的 队 
列 时 他 不 能 写 


个 请 求 是 发 送 到 对 端的 环 接口 处 还 是 继续 在 本 环 内 
传递 。 

第 一 个 使 用 环线 替代 总 线 架构 的 CPU 是 2005 年 
JBM/ 东 芝 / 索 尼 联合 研发 的 Cell 处 理 器 ， 频 率 4.6GHz， 
9 核心 ，1 个 主 核 8 个 辅 核 ， 主 要 用 于 家 用 游戏 机 、 
高 清 数字 系统 等 高 端 场合 。 其 环线 包含 2 个 顺 时 针 
运转 和 2 个 逆 时 针 旋 转 的 128 位 位 宽 的 数据 环线 。 
在 实际 的 设计 中 ， 可 以 将 不 同 的 流量 分 开通 过 多 个 
环 发 送 ， 比 如 请 求 专用 环 、 应 答 专用 环 、 数 据 专用 
环 等 。 

图 6-49 为 某 图 像 处 理 专用 芯片 内 部 架构 。 可 以 看 
到 其 使 用 了 6 个 Crossbar Switch 形成 了 一 个 星 形 网 络 
(红色 连 线 ) ， 同 时 又 将 4 个 13X 13 的 Crossbar 串 接 
起 来 形成 了 一 个 Ring。 每 个 Crossbar 下 面 挂 接 了 若干 
个 处 理 单元 〈 比 如 图 中 的 SPE 等 ) ， 这 些 处 理 单 元 或 
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从 下 一 站 获取 的 写 使 能 信号 。 
他 写 他 自己 的 队列 时 我 不 能 写 
6-48 Ring 网 络 的 实现 示意 图 
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6-49 ” 某 图 像 处 理 专用 芯片 内 部 架构 


者 是 纯 数字 逻辑 电路 ， 或 者 是 可 编程 可 运行 代码 的 
CPU， 或 者 是 SDRAM 控 制 器 。 


6.3.3 NoC 


Crossbar 和 Ring 是 比较 常用 的 两 种 用 于 多 个 核心 、 
缓存 之 间 互 联 的 网 络 方式 。Crossbar 成 本 高 、 时 延 低 ， 
用 于 接 入 节点 少 ， 更 加 追求 时 延 的 地 方 ， 比 如 图 6-48 
中 核心 、L1 缓 存 、L2 缓 存 之 间 的 连接 ，Ring 相 对 成 本 
较 低 ， 就 用 于 核心 、LLC 之 间 的 连接 。 还 有 一 些 连接 
方式 ， 用 于 连接 更 多 的 核心 ， 比 如 几 十 上 百 个 。 

图 6-50 左 图 为 一 个 Full Mesh (全 网 状 ) 网 络 ， 其 
中 每 个 方形 表示 一 个 5X5 Crossbar， 每 个 圆 形 表示 一 
个 器 件 ( 比 如 核心 的 L/S 单元 或 者 缓存 控制 器 ， 或 者 
SDRAM 控 制 器 等 ) 。 每 个 Crossbar 用 4 个 端口 分 别 与 
东西 南北 方向 上 的 Crossbar 连 接 ， 形 成 多 级 网 络 ， 数 
据 在 这 个 网 络 上 一 跳 一 跳 地 被 转发 到 目的 地 。 由 于 包 
交换 方式 更 加 高 效 ， 所 以 目前 已 经 几乎 没有 网 络 使 用 
基于 连接 的 方式 了 。 每 个 Crossbar 都 记录 一 份 涵盖 全 
网 的 路 由 表 。 这 种 分 布 式 Crossbar 多 跳 网 络 ， 相 比 任 
意 两 点 都 可 以 直接 互联 的 大 型 Crossbar 来 讲 ， 会 节省 
很 多 成 本 ， 占 用 面积 也 可 控 ， 属 于 线性 增长 ， 每 增加 
一 个 节点 ， 只 需要 增加 一 个 5X5 Crossbar 即 可 ， 其 以 
时 延 作为 代价 换 来 了 高 扩展 性 。 
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图 6-50 2D Mesh 和 2D Torus 分 布 式 交换 矩阵 


相对 于 图 6-43 中 Switch 矩阵 只 在 其 边缘 Crossbar 
上 连接 了 器 件 ， 这 个 Full Mesh 网 格 内 的 每 个 交叉 点 
处 的 Crossbar 都 可 以 连接 器 件 。 这 种 每 个 器 件 跟着 一 
个 小 Switch 的 网 络 互联 方式 被 称 为 直接 网 络 (Direct 
Network) ， 而 之 前 那 种 只 在 网 络 边缘 连接 器 件 的 则 
被 称 为 间接 网 络 (Indirect Network) 。 可 以 看 到 ， 这 
个 矩阵 用 了 64 个 5XS Crossbar， 支 撑 了 64 个 器 件 的 互 
联通 信 。 其 相距 最 远 的 两 个 几 点 间隔 了 14 跳 ， 忽 略 其 
他 因素 的 话 ， 相 当 于 路 由 一 个 数据 包 最 差 需要 15 个 时 
钟 周期 。 为 了 解决 这 个 问题 ， 另 一 种 拓扑 出 现 了 ， 观 
察 一 下 即 可 发 现 ， 这 个 矩阵 的 边缘 Crossbar 其 实 是 有 
一 路 线路 没有 任何 连接 的 ， 如 果 将 每 一 行 和 每 一 列 的 
首尾 Crossbar 的 这 条 空闲 线路 连接 起 来 之 后 ， 就 形成 
了 图 6-50 右 图 所 示 的 结构 ， 这 个 结构 学 名 叫 作 Torus， 
也 就 是 带 有 环 的 Mesh 拓 扑 。 经 过 这 样 的 设计 ， 有 些 
相隔 很 远 的 节点 间 通 信 就 可 以 抄 近 道 了 。 但 是 不 管 怎 
样 ， 在 这 种 大 范围 网 络 中 ， 两 点 之 间 通 信 的 平均 时 延 
一 定 是 增加 一 大 截 的 。 

Full Mesh 网 格 接 入 大 量 的 节点 ， 时 延 也 增加 了 ， 
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但 是 却 换 来 了 很 高 的 灵活 性 和 较 低 的 成 本 ， 以 及 极 高 
的 扩展 性 。 通 常 ， 人 们 习惯 于 将 连接 多 台独 立 计算 机 
的 网 络 称 为 Network， 而 将 芯片 内 部 或 者 多 个 芯片 之 
间 的 互联 网 络 称 为 Fabric， 而 将 这 种 嵌入 到 单个 芯片 
内 部 的 用 于 连接 片 内 多 个 不 同 模块 的 大 规模 互联 网 络 
称 为 NoC ( Network on Сыр, НЕ) 。NoC 已 经 
属于 计算 机 网 络 了 ， 在 NoC 中 可 以 实现 更 多 有 趣 的 特 
色 技 术 ， 比 如 QoS (Quality of Service) ， 也 就 是 决定 
先 转发 哪个 请 求 ， 后 转发 哪个 ， 每 个 节点 Crossbar 的 
接收 和 发 送 端口 上 可 以 增加 队列 缓冲 ， 以 实现 QoS 优 
先 级 控制 ， 再 如 实现 更 先进 的 流量 控制 策略 ， 更 加 充 
分 地 利用 队列 ， 利 用 更 先进 的 路 由 算法 和 拥塞 判断 算 
法 ， 算 出 从 哪 条 路 走 到 目标 节点 更 加 顺畅 。 该 领域 内 


主要 研究 方向 是 如 何 让 网 络 更 加 高 效 和 低 功 耗 、 占 用 
面积 更 小 。 

如 果 将 图 6-50 中 所 示 的 Torus 作 为 一 个 独立 单 
元 ， 然 后 多 个 Full Mesh 网 络 再 次 互联 的 话 ， 就 会 在 
更 高 维度 上 形成 一 个 网 络 ， 称 之 为 3D Torus。 如 图 
6-51 所 示 ， 将 多 个 2D Torus 在 Z 轴 方向 上 用 环 首尾 串 
起 来 就 形成 了 3D Torus。 同 理 ，3D Mesh 就 是 Z 轴 方 
向 串 起 来 多 个 2D Mesh， 但 是 并 不 首尾 相连 。 值 得 
注意 的 是 ， 这 些 拓 扑 看 上 去 是 立体 的 ， 但 是 做 到 芯 
片 中 是 可 以 在 一 个 平面 上 的 ， 只 把 导线 立体 架空 ， 
这 里 可 以 回顾 第 3 章 相关 内 容 。 当 然 ， 目 前 也 有 3D 芯 
片 ， 也 就 是 制作 多 层 半 导体 开关 及 导线 ， 有 兴趣 可 自 
行 了 解 。 


图 6-51 3D Torus 交 换 矩 阵 


如 果 将 多 个 3D Torus 再 次 按照 某 种 方式 连接 起 来 
呢 ? 那 就 是 4D Mesh/Torus, 4DF ИЕ ЊИЈЕ5О, Ш 
一 般 如 此 大 规模 的 网 络 ， 是 不 可 能 用 在 NoC 中 的 ， 一 
般 只 有 超级 计算 机 集群 才 会 用 到 3D 以 上 维度 的 网 络 ， 
此 时 每 个 节点 都 是 一 台独 立 的 计算 机 。 比 如 ， 图 6-52 
就 是 IBM 蓝 色 基 因 超 级 计算 机 集群 采用 的 5D Torus。 


图 6-52 5D Torus 网 络 拓扑 


图 6-53 为 另外 一 些 常 用 Fabric 拓 扑 。HyperCube 超 
立方 也 是 Intel QPI 网 络 〈 多 个 CPU 芯片 间 的 互联 ) 所 
使 用 的 拓扑 ， 详 见 后 面 章节 ， 胖 树 (FatTree) ， 好 胖 
一 棵 树 ， 它 的 胖 体 现在 越 是 处 在 高 层 的 节点 ， 其 上 联 
或 者 下 联 带 宽 就 越 宽 〈 胖 ) ， 因 为 高 层 节点 要 保证 最 
底层 节点 间 任 意 两 点 通信 的 无 阻塞 或 者 少 阻塞 ， 降 低 
不 同 节 点 间 互 访 的 带宽 差距 ， 天 河 I 超 级 计算 机 就 是 
用 胖 树 网 络 拓扑 连接 大 量 计算 机 节点 的 。 至 于 金字 塔 
(Pyramid) 拓扑 和 蝴蝶 展翅 (Butterfly) 拓扑 比较 少 
见 。 图 6-54 左 图 为 胖 树 拓扑 的 另 一 种 连接 方式 。 右 图 
则 是 一 种 Triple Ring 架 构 ， 三 串 节 点 两 两 互相 串 接 起 
来 ，Intel 在 其 12 核 心 的 Ivy Bridge CPU 微 架构 中 就 是 利 
用 Triple Ring 来 串 接 其 12 核 心 的 。 另 外 还 有 带 弦 环 、 
带 环 立方 体 ， 请 自行 体会 吧 。 

如 图 6-55 所 示 为 ClosNetwork 拓 扑 。 

网 络 中 相隔 最 远 的 两 个 点 ( 跳 数 最 多 ) 之 间 的 跳 
数 被 称 为 这 个 网 络 的 直径 。 
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6-53 ”其 他 互联 Fabric 结 构 


图 6-55 Clos Network 拓 扑 
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6.3.4 众 核心 CPU 


图 6-56 为 某 64 核 心 CPU 架构 图 ， 其 中 每 个 CPU 
核心 、SDRAM 控 制 器 、 外 部 IO 控制 器 都 连接 着 一 个 
5 端口 的 Crossbar Switch， 它 们 互联 成 2D Full Mesh 网 
络 。 每 个 Switch 上 有 多 条 链 路 ， 分 工 各 不 相同 。 其 中 
IDN 承担 针对 外 部 设备 控制 器 寄存 器 的 访问 ， 也 就 是 
IO 访问 ，MDN 承 担 缓存 不 命中 之 后 的 一 系列 访 存 操 
作 ，TDN 和 VDN 负 责 节点 之 间 的 内 存 访问 和 缓存 一 致 
性 同步 ，UDN 和 STN 负 责 程序 层面 的 数据 传递 。 

图 6-57 所 示 为 某 80 核 心 CPU 的 芯片 图 和 架构 图 ， 
每 个 核心 节点 附带 一 个 5 方向 的 路 由 器 ， 所 有 节点 组 
成 Full Mesh 网 络 互联 。 人 们 将 在 同一 个 芯片 内 集成 
几 十 到 上 百 级 别 的 CPU 核心 的 CPU 芯片 ， 称 为 众 核心 
(Many Core) CPU。 众 核心 CPU 的 应 用 场景 一 般 都 是 
要 求 大 量 线程 并 发 ， 但 每 个 线程 对 性 能 要 求 并 不 是 很 
高 ， 因 为 芯片 面积 有 限 ， 核 心 数量 多 ， 那 其 他 特性 规 
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图 6-57 某 80 核 心 CPU 的 芯片 图 和 架构 图 


格 就 得 降低 ， 包 括 缓存 、 分 支 预测 、 乱 序 执行 等 。 

图 6-58 一 图 6-60 为 某 Flash 控 制 器 芯片 内 部 架构 示 
意图 。Flash 控 制 器 由 于 需要 处 理 针对 闪存 的 各 种 读 
写 命令 和 控制 逻辑 ， 需 要 处 理 大 量 元 数据 和 做 统计 计 
算 ， 所 以 需要 较 强 处 理 能 力 ， 而 且 需 要 充分 并 行 化 和 
流水 线 化 。 从 图 中 可 以 看 到 其 包含 16 个 CPU 核心 ， 核 
心 之 间 同 样 是 用 2D Full Mesh 方 式 的 Fabric 互 联 。 每 
个 节点 路 由 器 (本 质 上 就 是 Crossbar Switch) 有 5 个 多 
位 宽 并 行 端口 用 于 各 个 节点 间 通 信 。 另 外 如 图 6-58 所 
示 ， 其 采用 了 两 张 Full Mesh 网 络 ， 一 张 用 于 传输 实际 
数据 ， 另 一 张 用 于 传输 管理 和 配置 消息 。 

从 图 中 可 以 看 到 ， 除 了 通用 CPU 核心 之 外 ， 其 还 
包含 了 外 围 接 口 控制 器 ， 包 括 DDR 内 存 控制 器 、PCIE 
总 线 控制 器 和 后 端 Flash 芯 片 通道 控制 器 ， 以 及 各 种 加 
速 器 ， 包 括 缓冲 分 配 管理 加 速 器 、 链 表 加 速 器 和 XOR. 
计算 加 速 器 。 这 些 加 速 器 也 都 是 通过 节点 路 由 器 与 其 
他 部 件 通 信 ， 包 括 访问 RAM。 
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Full Mesh 无 阻塞 4 向 消息 路 由 网 络 


• 每 个 节点 ( CPU. MERS ) 配 有 1 个 4 向 无 阻塞 路 由 器 
e 一 个 时 钟 周 期 最 多 可 完成 4 次 包 路 由 
• 5х 5 Crossbar 


点 对 点 直 连 4 向 无 阻塞 路 由 器 : 


6-58 ” 某 Flash 控 制 器 芯片 内 部 架构 示意 图 (1) 


o 二 维 Full Mesh 网 络 互 连 
UU 核心 


二 维 Full Mesh 网 络 互 连 
16 个 通用 CPU 核心 
控制 


网 络 与 数据 网 络 法 立 
3 个 专用 加 速 器 + 3 接口 控制 器 


96-59 ” 某 Flash 控 制 器 芯片 内 部 架构 示意 图 (2) 


二 维 Full Mesh 网 络 互 连 
16 个 通用 CPU 核心 


控制 网 络 与 数据 网 络 踢 立 
3 个 专用 加 速 器 + 3 接口 控制 器 


图 6-60 某 Flash 控 制 器 芯片 内 部 架构 示意 图 (3) 


图 6-61 为 某 通信 和 领域 信号 处 理 专用 芯片 内 部 架 
构 。 可 以 看 到 其 6 个 处 理 模块 各 自 通 过 一 个 5 端口 
Crossbar Switch 互联 形成 了 一 个 2D Full Mesh 网 络 。 
其 中 ，OFDM 〈 正 交 频 分 复 用 ) 模块 是 一 个 纯 数字 
逻辑 ， 其 作用 是 对 信号 进行 调制 ， FHT 模 块 〈 滤 波 反 
投影 算法 ) 也 是 纯 数字 多 辑 ， MEM 表 示 该 模块 是 一 
个 SDRAM 控 制 器 ， 其 会 挂 接 一 定 容量 的 SDRAM 内 
存 ; 80c51 是 Intel 公 司 的 极 简 化 的 CPU， 俗 称 51 单 片 


机 ， 用 于 总 控 ， 可 运行 代码 。51 单 片 机 将 操作 码 以 及 
待 处 理 的 数据 在 SDRAM 中 的 位 置 〈 指 针 ) 通过 Mesh 
网 络 传递 给 OFDM 或 者 FHT 模 块 ， 然 后 由 这 两 个 模块 
自行 根据 指针 去 SDRAM 中 将 数据 取 回 、 运 算 、 写 回 
SDRAM， 这 个 过 程 中 发 生 的 访 存 指令 、 数 据 的 传递 
都 需要 经 过 Mesh 网 络 。 

图 6-62 为 上 述 芯片 内 部 某 模块 中 的 5 端口 Crossbar 
Switch 的 近 观 图 。 

图 6-63 左 图 为 该 芯片 的 布局 图 ， 可 以 看 到 上 述 的 
各 个 模块 ， 以 及 Switch 模块 在 芯片 中 的 布局 位 置 。 右 
图 为 OFDM 模 块 内 部 的 布局 图 ， 其 是 一 片 可 编程 门 阵 
列 (FPGA) ， 可 以 将 自己 的 电路 动态 地 设计 进去 ， 
关于 FPGA 的 介绍 详 见 本 书后 续 章 节 。NoC Interface 
就 是 该 模块 与 5 端口 Crossbar Switch 的 交互 接口 ， 数 据 
的 收发 都 要 经 过 该 Interface 模 块 ，Interface 模 块 作为 该 
OFDM 模 块 的 一 个 IO 设备 而 存在 。 

总 结 一 下 一 些 过 气 的 大 中 型 计算 机 以 及 超级 
计算 机 系统 中 所 使 用 的 互联 Fabric〈 不 区 分 是 片 内 
互联 还 是 片 间 、 机 器 间 互 联 ) : Sun Fire E25K (18 
X 18 单 Crossbar) , Bull NovaScale (Crossbar) ~ 
Cambridge Parallel Processing Gamma II Plus (Clos 
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Network) , Unisys Server ES7000 (Crossbar) ~ Cray 
Inc. ХІ (Crossbar) 、Fujitsu/Siemens PRIMEPOWER 
(Crossbar) ‚ Hitachi SR11000 (3D Crossbar) , НР 
9000 SuperDome (Crossbar) ‚ HP Integrity SuperDome 
(Crossbar) ‚ HP/Compaq GS series (2D Torus) 、 
Compaq AlphaServer SC45 Series (Fat Tree) ‚ IBM 
eServer p690 (Omega Switch) ~ ІВМ BlueGene/L 
(ЗР Torus, Tree) ‚ МЕС SX-6 (Omega Network) 、 


图 6-61 
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Level shifters + isolation cells 


NEC ТХ-7 series (Crossbar) , Quadrics Apemille 
(3D Mesh) 、SGI Altix 3000 series (Crossbar/ 
HyperCube) ‚ HP Integrity SuperDome (Crossbar) 、 

SGI Origin3900 (Crossbar/HyperCube) 、MasPar MP-2 
(2D Mesh/Crossbar) /Alenia Quadrics (3D Mesh) 、 

Gordon (3D Torus) 。 图 6-64 为 1993 年 推出 的 Cray T3D 
(Torus 3D) 大 型 计算 机 ， 其 最 大 可 以 将 2048 个 DEC 
Alpha CPU 用 3D Torus 拓 扑 互联 起 来 ， 形 成 一 个 多 CPU 


某 通信 和 领域 信号 处 理 专用 芯片 内 部 架构 


模块 中 的 5 端口 Crossbar Switch 的 近 观 图 


Switch | 


TRXOFDM 


Switch 
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Switch Switch Switch 


ыр 
图 6-63 
的 大 型 计算 机 。 


6-64 ”1993 年 推出 的 CrayT3D (Torus зр) 大 型 计算 机 


6.3.5 ”多 核心 程序 执行 过 程 回顾 


走 得 太 远 之 后 ， 别 忘 了 回眸 过 去 ， 温 故 知 新 。 看 
到 Cray T3D 将 2048 个 CPU 互联 成 网 络 ， 在 惊叹 之 余 ， 
你 也 不 妨 就 下 面 一 连 串 的 问题 自问 自 答 一 下 : 

这 么 多 CPU 到 底 是 如 何 执行 程序 (或 者 确切 地 
说 ， 线 程 ) 的 ， 它 们 是 怎么 知道 各 自 要 执行 线程 的 程 
序 入 口 地 址 的 ? 所 有 的 CPU 首先 执行 的 是 线程 调度 程 
序 ， 由 调度 程序 把 对 应 的 栈 指针 、 页 表 指 针 等 都 载 入 
CPU 寄存 器 ， 准 备 好 之 后 ， 直 接 跳 转 到 目标 线程 上 一 
个 断 点 入 口 地 址 从 而 执行 的 。 
那么 线程 调度 程序 又 是 怎么 被 执行 的 ? 线程 调度 
程序 可 以 通过 外 部 中 断 被 触发 执行 。 每 当 外 部 的 电子 
表 强 制 中 断 CPU 之 后 ，CPU 保 存 现场 然后 根据 中 断 向 
量 表 中 所 描述 的 “中 断 号 ~ 中 断 服务 程序 入 口 地 址 ” 
对 应 关系 ， 找 到 时 钟 中 断 号 对 应 的 入 口 地 址 ， 跳 转 过 
去 执行 。 时 钟 中 断 服务 程序 在 做 一 些 计时 和 其 他 操作 
之 后 ， 跳 转 到 线程 调度 程序 执行 。 每 个 CPU 在 被 中 断 
之 后 都 跳 转 到 同一 份 中 断 服务 程序 执行 ， 但 是 至 于 
哪个 CPU 做 什么 事情 ， 则 由 中 断 服务 程序 根据 CPUID 
指令 返回 的 结果 来 定 ， 比 如 CPU1 负 责 更 新 系统 时 间 
从 而 让 用 户 看 到 ，CPU2 则 去 做 其 他 某 件 事 。 当 所 有 
CPU 都 运行 线程 调度 程序 的 时 候 ， 线 程 调度 程序 也 根 
据 CPUID 来 判断 ， 比 如 CPU1 跳 转 到 线程 1 入 口 执行 ， 
CPU2 跳 转 到 线程 2 入 口 执行 ， 不 断 循环 上 面 的 动作 ， 
时 钟 中 断 大 概 每 10ms 级 别 中 断 一 次 。 
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上 述 芯片 的 布局 图 


中 断 向 量 表 又 是 谁 准备 好 的 ? CPU 被 中 断后 又 怎 
么 知道 向 量 表 在 哪个 地 址 从 而 去 查 表 的 ? 中 断 向 量 表 
被 BIOS 程 序 准备 好 放 在 SDRAM 中 某 处 ， 然 后 再 用 特 
殊 的 指令 将 表 入 口 地址 指针 更 新 到 CPU 内 部 的 专门 用 
于 存放 中 断 向 量 表 指针 的 寄存 器 中 ，CPU 内 部 的 电路 
就 知道 了 。 

BIOS 程 序 是 怎么 被 执行 的 ? BIOS 程 序 被 放置 在 
一 片 ROM 存 储 器 中 ， 一 般 为 2MB 大 小 ， 以 某 种 方式 
连接 到 系统 总 线 上 ， 这 2MB 可 以 直接 被 CPU 发 出 的 地 
址 信号 寻 址 到 ， 其 地 址 被 外 围 访 存 硬件 默认 映射 到 位 
于 整个 地 址 空间 的 最 高 位 置 ， 负 责 访 存 的 外 围 电路 只 
要 一 看 到 是 访问 这 段 地 址 空间 的 ， 就 自动 将 访 存 请 求 
转发 给 ROM 控 制 器 执行 ， 读 出 对 应 地 址 的 代码 供 CPU 
执行 。 对 于 多 核心 /CPU 系 统 ， 所 有 核心 加 电 之 后 默认 
都 从 该 地 址 段 读 出 BIOS 的 代码 执行 ， 也 就 是 说 所 有 核 
心 都 会 运行 BIOS，BIOS 里 的 代码 根据 CPUID 返 回 的 
信息 ， 选 举 出 其 中 一 个 核心 作为 主 核心 ， 只 让 它 继续 
执行 BIOS 后 续 的 代码 ， 然 后 把 其 他 核心 关 掉 снаја 
令 ) ， 让 其 不 执行 代码 ， 处 于 睡眠 态 。 当 BIOS 把 一 切 
都 准备 好 之 后 ， 操 作 系统 启动 ， 此 时 其 他 核心 依然 睡 
着 呢 ， 操 作 系统 要 把 喂 给 每 个 核心 的 线程 准备 好 Сц 
然 一 开始 没有 用 户 线程 ， 只 能 喂 给 它们 Idle 线 程 了 ) ， 
然后 让 主 核心 向 其 他 核心 发 出 一 个 核 间 中 断 信号 (Inter 
Processor Interrupt，IPI， 详 见 第 10 章 ) ， 在 这 个 信号 中 
告诉 醒 来 的 CPU 跳 转 到 哪里 去 执行 代码 ， 这 里 当然 是 线 
程 调度 程序 入 口 处 了 。 这 样 ， 所 有 的 核心 都 醒 来 然后 
各 自 去 执行 线程 调度 程序 ， 从 而 被 分 派 不 同 的 线程 运 
行 。 这 一 步 之 后 ， 所 有 的 核心 都 处 于 同等 地 位 ， 不 再 
区 分 主 核心 和 睡眠 核心 。 关 于 多 核心 系统 启动 过 程 ， 
后 文中 还 会 有 更 具体 的 介绍 。 可 以 看 到 ， 将 核心 之 
间 相 互 连 接 起 来 ， 并 不 仅仅 是 为 了 实现 缓存 一 致 性 同 
步 ， 核 间 中 断 信 号 也 需要 通过 这 个 互联 网 络 来 传递 。 

BIOS 都 做 了 什么 ? 它 是 怎么 知道 系统 中 有 哪些 
外 部 设备 的 ， 比 如 电子 表 ? BIOS 执 行 后 做 的 第 一 件 事 
就 是 执行 POST (Power on Self Testing， 上 电 自 检 ) 过 
程 ，BIOS 程 序 通过 读 取 IO 桥 对 应 的 寄存 器 来 获知 当 
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前 所 有 连接 到 IO 桥 上 的 外 部 设备 信息 ， 然 后 加 载 内 
置 在 BIOS 中 的 对 应 设备 的 驱动 程序 ， 对 这 些 设备 做 初 
始 化 配置 〈 将 一 些 选项 控制 字 ， 比 如 运行 速率 、 运 行 
模式 等 ， 写 入 到 对 应 设备 控制 器 的 寄存 器 中 ， 对 于 一 
些 即 插 即 用 的 设备 ， 还 需要 将 其 寄存 器 映射 到 CPU 全 
局 地 址 空间 中 ， 也 就 是 分 配 一 段 地 址 并 将 地 址 指针 写 
入 到 这 些 设备 的 寄存 器 中 ， 同 时 将 对 应 的 路 由 记录 更 
新 到 外 围 负责 访 存 的 电路 模块 中 ) ， 并 对 设备 做 必要 
的 检查 。 比 如 读 取 其 状态 寄存 器 ， 看 看 其 是 运行 在 正 
常 状 态 还 是 处 于 某 种 故障 状态 ， 对 SDRAM 中 的 每 个 
字 节 进行 读 取 操作 ， 看 看 SDRAM 内 部 的 存储 单元 是 
否 都 无 故障 (当然 这 一 步 会 很 长 ， 因 为 要 把 所 有 字 节 
都 读 取 一 遍 ， 甚 至 写 入 一 遍 再 读 取 一 遍 ， 这 取决 于 不 
同 的 策略 和 对 可 靠 性 的 要 求 级 别 ) 。 这 个 过 程 称 为 设 
备 扫描 和 自 检 。 自 检 完 后 ，BIOS 程 序 将 所 有 正常 设备 
的 信息 生成 一 张 表 保存 在 SDRAM 中 某 固定 位 置 ， 表 
中 包含 每 个 设备 控制 器 对 应 的 操作 寄存 器 的 地 址 。 同 
时 ， 生 成 中 断 向 量 表 ， 并 用 BIOS 自 带 的 中 断 服务 程序 
绑 定 到 对 应 的 中 断 号 上 。 

BIOS 自 带 了 设备 驱动 程序 以 及 中 断 服务 程序 ， 这 
不 都 准备 好 了 ， 程 序 直 接 就 可 以 运行 了 ， 为 什么 还 需 
要 操作 系统 ? BIOS 中 的 B 表 示 什 么 ? 表示 Basic， 基 本 
的 ， 它 只 提供 基本 的 初始 化 和 运行 支撑 ， 其 他 一 概 没 
有 ， 比 如 计算 器 等 各 种 应 用 程序 。 它 只 会 内 置 那些 非 
常 通用 的 设备 驱动 程序 ， 比 如 USB、P/S2 等 ， 有 些 比 
如 独立 声卡 、 显 卡 、 网 卡 等 高 端 设 备 是 无 法 驱动 的 ， 
但 是 BIOS 依 然 会 看 到 这 些 设备 的 存在 。 所 以 ， 操 作 
系统 做 的 事情 就 是 提供 更 加 丰满 的 运行 支撑 ， 不 但 加 
载 最 新 的 设备 驱动 ， 而 且 把 中 断 服务 程序 也 替换 掉 ， 
因为 OS 提供 的 中 断 服务 程序 拥有 更 强 的 性 能 和 功能 。 
另外 还 有 关键 的 一 点 ，BIOS 运 行 在 实 模式 下 (还 记 
得 吗 ? 回顾 上 一 章 ) ， 对 运行 程序 是 极度 不 友好 的 ， 
OS 运行 之 后 ， 会 利用 页 表 将 所 有 程序 运行 在 保护 模式 
下 ， 更 方便 。 早 期 的 DOS 操 作 系统 就 是 在 BIOS 的 基 
础 上 直接 在 实 模式 运行 的 ， 利 用 BIOS 提 供 的 驱动 和 
中 断 服务 程序 ， 自 己 做 了 上 层 的 东西 ， 比 如 文件 系统 
和 其 他 一 些 模块 ， 这 也 是 其 名 日 磁盘 操作 系统 (Disk 
Operating System) 的 原因 。 

BIOS 及 其 内 部 的 驱动 程序 是 谁 开发 的 ? 开发 商用 
计算 机 、 服 务 器 的 BIOS 程 序 的 厂商 主要 有 : Phoenix、 
AMI、Insyde、Byosoft 等 。 驱 动 程序 一 般 已 经 是 公 
用 的 了 ， 比 如 USB、P/S2 控 制 器 驱动 程序 ， 都 是 开源 
的 ，BIOS 厂 商 自 己 集成 进去 就 可 以 。 至 于 非 广泛 普 
遍 使 用 的 设备 ， 谁 开发 的 设备 ， 谁 就 得 开发 驱动 。 


6.3.6 在 众 核心 上 执行 程序 


对 于 二 十 世纪 的 Cray T3D 这 种 机 器 来 讲 ， 所 有 CPU 
看 到 并 共享 同一 个 地 址 空间 ， 它 们 发 出 的 访 存 请 求 会 
被 路 由 到 正确 的 目的 地 ， 这 被 称 为 共享 内 存 架构 。 从 
图 6-64 中 也 可 以 看 出 ， 在 那个 时 代 ， 芯 片 集成 度 很 低 ， 


不 得 不 用 大 量 的 电路 板 把 大 量 的 单个 CPU 芯片 用 网 络 
互 连 起 来 。 对 于 当前 的 众 核心 CPU 来 讲 ， 一 个 芯片 就 
能 集成 几 十 上 百 个 CPU 核心 了 ， 但 是 其 网 络 互联 的 基 
本 架构 相 比 Cray T3D 并 没有 本 质变 化 ， 只 不 过 是 众多 
的 导线 都 在 芯片 内 部 了 。 随 着 进一步 阅读 本 书 ， 你 会 
知道 ， 对 于 当前 的 众 核心 CPU 来 讲 ， 做 到 共享 内 存 并 
不 是 不 可 以 ， 但 是 目前 CPU 运行 频率 比较 高 ， 吞 吐 量 
比较 大 ， 而 一 个 访 存 请 求 跨越 大 规模 网 络 到 达 目 的 地 
的 时 延 太 高 ，CPU 会 浪费 太 多 时 间 原 地 等 待 封闭 相 
关 的 WE 信号 ， 封 闭 流水 线 ) ， 所 以 对 于 基于 NoC 的 芯 
片 ， 有 很 多 产品 不 支持 共享 内 存 ， 这 些 产品 或 者 无 法 
直接 寻 址 SDRAM (外 围 访 存 电路 只 能 把 访 存 请 求 路 
由 到 缓存 ) ， 或 者 可 以 直接 寻 址 但 是 不 推荐 ， 性 能 会 
非常 差 。 在 这 些 产品 上 运行 的 程序 需要 重新 设计 。 

不 支持 直接 寻 址 SDRAM 的 众 核心 CPU 一 般 会 提 
供 数 百 KB 的 SRAM 存 储 器 ， 核 心 只 能 直接 寻 址 这 块 存 
储 器 (还 记得 第 3 章 中 介绍 过 的 Scratchpad КАМА, 
就 是 这 个 ) ， 所 以 地 址 线 的 位 宽 可 以 比较 低 。 这 就 意 
味 着 多 核心 上 的 程序 不 能 直接 相互 通信 ， 比 如 核心 1 
上 某 个 线程 将 某 个 变量 放 在 A 地 址 ，A 地 址 指 的 是 它 
自己 的 SRAM 中 的 地 址 ， 这 个 地 址 是 一 个 只 能 由 该 核 
心 自己 看 得 到 的 本 地 地 址 ， 其 他 核心 访问 不 了 这 个 地 
址 ， 也 就 是 说 核心 2 如 果 发 出 访问 地 址 A 的 请 求 ， 其 
访问 到 的 是 核心 2 自己 的 SRAM 里 的 地 址 A， 这 里 放 的 
可 不 是 那个 变量 。 所 以 ， 多 核心 上 的 程序 想 交换 数据 
的 话 ， 就 得 把 数据 放 到 核心 外 部 、 位 于 NoC 某 个 节点 
上 的 SDRAM， 其 他 核心 再 从 这 里 拿 走 。 但 是 SDRAM 
又 不 可 以 被 直接 寻 址 ， 如 何 访问 它 呢 ? 需要 给 NoC 接 
口 收发 控制 器 发 送 请 求 “ 我 要 访问 SDRAM 节 点 内 部 
的 第 1024 字 节 ， 拿 到 数据 后 请 放置 到 本 地 SRAM 中 的 
第 4096 字 节 处 ”，NoC 接 口 控制 器 的 驱动 程序 会 提供 
对 应 的 API， 比 如 Read_byte0、Wirite_Byte() 等 ， 上 层 
程序 调用 之 即 可 ， 驱 动 程序 负责 读 写 NoC 控 制 器 对 应 
的 寄存 器 ， 将 上 层 程序 传 过 来 的 参数 写 入 其 中 ，NoC 
控制 器 则 自行 封装 出 一 个 访 存 请 求 数据 包 ， 包 中 含有 
SDRAM 节 点 的 ID 号 、 要 访问 的 字 节 号 、 源 节点 ID 号 
等 控制 信息 ， 数 据 包 被 载 入 NoC 路 由 到 SDRAM， 后 
者 返回 数据 到 发 送 方 NoC 控 制 器 ，NoC 控 制 器 再 把 数 
据 放置 到 SRAM 中 指定 地 址 ， 然 后 中 断 发 送 方 CPU 核 
心 ， 处 理 该 条 数据 。 


实际 上 ， 对 于 一 些 尺寸 比较 小 的 请 求 消息 类 数 
据 ， 当 某 线 程 需要 向 其 他 线程 发 送 请 求 的 时 候 ， 
可 以 直接 由 发 送 方 通过 NoC 发 送 给 接收 方 ， 而 不 是 
把 消息 放 到 SDRAM 里 ( 走 数 据 NoC ) 再 让 对 方 来 
拿 ， 这样 能 够 节省 很 多 来 回 。 有 些 产 品 其 至 使 用 了 
两 个 NoC 来 分 别传 送 数据 和 消息 ， 比 如 图 6-59 所 示 
的 芯片 。 传 送 消息 的 NoC 被 设计 的 带宽 小 一 些 ， 但 
是 时 延 也 更 低 一 下 ， 运 行 频率 更 高 一 些 。 


这 样 看 来 ， 多 个 线程 还 是 可 以 共同 访问 SDRAM 
么 ? 不 也 应 该 被 称 为 共享 内 存 么 ? 一 般 来 说 ，“ 共 享 
内 存 ” 这 四 个 字 的 含义 已 经 被 狭窄 限定 为 “多 个 核心 
看 到 同一 个 地 址 空间 且 直 接 用 Load/Stor 指 令 就 可 以 寻 
址 全 部 空间 ”了 。 

可 以 看 到 ， 上 述 对 SDRAM 的 访问 方式 ， 与 访问 
硬盘 等 外 部 IO 设备 别 无 二 致 。 把 SDRAM 当 作 I/O 方 
式 来 用 ， 是 有 设计 上 的 考量 的 ， 设 计 师 完全 可 以 加 宽 
CPU 核 心 的 地 址 线 让 它 可 以 寻 址 更 大 空间 ， 同 时 把 负 
责 访 存 的 电路 与 NoC 控 制 器 对 接 起 来 ， 只 要 收 到 访 存 
请 求 落 入 了 SDRAM， 硬 件 自行 操纵 NoC 控 制 器 寄存 
器 ， 让 后 者 把 访 存 请 求 载 入 NoC 网 络 路 由 到 目的 ， 这 
样 就 可 以 实现 透明 的 共享 内 存 。 

设计 师 之 所 以 将 RAM 搞 成 了 IO， 其 原因 有 两 
№: 第 一 是 节省 硬件 资源 ， 第 二 则 是 提升 吞吐 量 。 第 
二 点 原因 看 上 去 不 太 应 该 ， 将 直接 访 存 搞 成 1O 还 能 
提升 吞吐 量 ? 这 可 能 与 很 多 思维 背道而驰 。 由 于 在 一 
个 芯片 上 要 做 大 量 核心 ， 众 核心 只 能 降低 核心 内 部 控 
制 逻辑 的 功能 和 复杂 度 ， 所 以 单 核心 性 能 都 不 会 很 
高 ， 其 L/S 单元 队列 深度 很 低 ， 缓 冲 小 ， 几 乎 就 是 同 
步 操 作 了 ，L/S 单 元 未 返回 数据 之 前 ， 整 个 流水 线 就 
被 阻塞 了 ， 严 重 影响 吞吐 量 。 这 里 可 以 回顾 一 下 第 4 
章 流水 线 方面 的 内 容 ， 高 时 延 的 操作 会 极 大 降低 吞吐 
量 ， 其 解决 办 法 就 是 实现 异步 化 。 异 步 化 的 前 提 条 件 
是 必须 积压 足够 多 的 请 求 在 队列 中 ,但 是 即便 L/S 单 
元 中 的 队列 再 深 ， 也 得 看 程序 自身 ， 如 果 只 有 一 个 线 
程 且 顺序 执行 的 ， 前 一 条 指令 不 执行 完 ， 后 一 条 几乎 
得 不 到 执行 ， 再 加 上 众 核心 很 有 可 能 砍 掉 乱 序 执行 特 
性 ， 不 支持 超 线程 ， 那 么 队列 中 根本 压 入 不 了 几 条 访 
存 指令 ， 即 便 异 步 化 也 得 不 到 高 吞吐 量 。 所 以 ， 更 好 
的 办 法 是 ， 由 程序 预先 将 需要 访问 的 数据 批量 、 大 块 
地 从 SDRAM 中 读 入 本 地 SRAM 中 ， 然 后 本 地 执行 ， 
这 就 像 非 众 核心 架构 的 CPU 场景 下 ， 程 序 预先 把 代码 
从 硬盘 载 入 内 存 ， 再 执行 一 样 。 

传统 CPU 上 运行 的 程序 ， 可 以 肆 无 忌 价 的 任性 ， 
丝毫 不 关心 某 个 地 址 对 应 的 数据 放 在 哪 ， 怎 么 样 才 最 
快 。 而 众 核心 上 的 程序 就 得 精打细算 了 ， 所 以 ， 众 核 
心 基 本 被 广泛 用 于 专用 场景 ， 比 如 防火 墙 、 流 处 理 、 
视频 处 理 等 。 大 数据 分 析 其 实 也 很 有 应 用 潜力 。 所 谓 
网 络 处 理 器 (Network Processor, NP) ， 多 数 也 使 用 了 
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这 种 众 核心 架构 ， 因 为 要 达到 充分 的 并 行 性 ， 核 心 数 
就 越 多 ， 并 行 度 越 大 ， 再 辅 之 以 一 些 专用 数字 逻辑 。 
然而 ， 通 用 CPU 可 以 通过 进行 不 断 的 线程 切换 ， 也 能 
实现 类 似 的 并 发 操作 ， 但 是 其 并 发 是 分 时 的 、 假 的 。 
IBM 的 CelVB.E 处 理 器 是 一 款 单 芯片 的 片上 多 核心 
系统 。 其 在 同一 颗 芯片 中 集成 了 8 个 支持 128 位 SIMD 的 
专用 CPU 核心 (没有 缓存 ， 只 有 256KB 的 可 直接 寻 址 
SRAM) ， 以 及 一 颗 PowerPC 通 用 CPU 核 心 ( 单 核 性 能 
较 强 ， 有 L1、L2 缓 存 ) ， 再 加 上 内 存 控制 器 、IO 控 制 
器 ， 所 有 部 件 连接 在 一 个 Ring 上 ， 如 图 6-65 所 示 。 
整个 系统 的 支撑 程序 ， 也 就 是 操作 系统 ， 运 行 在 
PowerPC CPU 上 ， 用 户 程序 的 主线 程 也 运行 在 其 上 。 
其 他 的 核心 则 运行 辅助 线程 ， 主 线程 负责 任务 分 派 ， 
辅助 线程 负责 任务 执行 。 运 行 在 PowerPC CPU 上 的 主 
线程 将 任务 数据 的 指针 和 描述 信息 《比如 由 哪个 辅助 
线程 执行 ， 结 果 放 到 哪个 DRAM 地 址 等 ) 放 到 RAM 
中 某 个 队列 中 ， 然 后 运行 在 辅助 核心 上 的 辅助 线程 从 
队列 中 读 出 任务 描述 信息 ， 如 果 是 给 自己 分 派 的 ， 则 
根据 指针 从 对 应 位 置 取 走 数据 、 计 算 处 理 然后 将 结果 
写 回 RAM， 然 后 发 出 一 个 中 断 PowerPC 〈 这 种 由 一 个 
CPU 核心 向 另外 一 个 CPU 核心 主动 发 出 的 核 间 中 断 ， 其 
并 非 由 外 部 设备 发 出 ) ， 运 行 在 PowerPC 上 的 中 断 服务 
程序 调用 对 应 的 下 游程 序 处 理 已 经 完成 的 结果 ， 做 收 
尾 工作 ， 然 后 输出 到 显示 器 、 声 卡 或 者 外 部 网 络 等 。 


这 种 内 部 不 对 称 处 理 架构 的 CPU 被 称 为 异 构 多 
处 理 器 ( Asymmetric Multi Processor, AMP ) 。 有 
些 核心 或 者 纯 数字 逻辑 专门 负责 计算 ， 有 些 核心 专 
门 负责 协调 、 派 发 任务 。 相 比 之 下 ， 同 构 多 处 理 则 
器 是 ( Symmetric Multi Processor, SMP ) ,每 个 
核心 的 分 工 相同 ， 都 是 对 称 。 目 前 几乎 所 有 的 通用 
多 核心 CPU 都 是 SMP 方 式 的 。 而 专用 芯片 ， 比 如 视 
频 处 理 、 信 号 处 理 、 网 络 包 处 理 等 芯片 ， 一 般 采 用 


SIMD 专 用 辅助 核心 上 运行 的 辅助 线程 与 PowerPC 
上 运行 的 主线 程 完全 隔离 ， 每 个 辅助 线程 各 自 只 看 到 
自己 的 256KB 的 地 址 空间 ， 所 以 辅助 线程 的 代码 + 数 
据 不 可 超出 256KB。 辅 助 核心 的 地 址 线 位 数 就 可 以 是 
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有 大话 计 算 机 一 一 计算 机 系统 底层 架构 原理 极限 剖析 


log:256K。 外 部 的 DDR RAM 并 不 被 纳入 辅助 核心 的 地 
址 空间 ， 而 是 按照 上 文中 介绍 的 方式 访问 SDRAM。 但 
是 PowerPC CPU 依然 按照 传统 方式 访 存 ， 外 围 访 存 硬 
件 会 保证 SDRAM 空 间 是 被 纳入 它 的 可 寻 址 范围 的 。 
通用 CPU 在 RAM 和 L/S 单 元 之 间 会 有 一 层 缓存 ， 
并 由 硬件 来 管理 ， 而 Cell 处 理 器 内 部 的 SIMD 辅 助 核 
心 并 没有 管理 缓存 的 硬件 ， 实 际 上 也 并 没有 缓存 ， 
其 SRAM 相 当 于 RAM， 其 RAM 相 当 于 硬盘 。 代 码 想 
要 实现 缓存 预 读 等 缓冲 操作 ， 就 需要 自己 在 256KB 的 
SRAM 中 开辟 一 块 空间 作为 缓冲 ， 自 己 管理 预 读 、 写 
回 等 全 软件 操作 ， 这 让 软件 开发 者 苦 不 堪 言 。Cell 处 
理 器 率先 被 用 在 了 游戏 机 中 ， 这 估计 害 苦 了 游戏 开 
发 商 了 ， 不 过 即便 如 此 ， 仍 有 顶尖 游 戏 开发 商 开 发 
出 《神秘 海域 》 系 列 等 项 级 游戏 。 最 终 ，Cell 停 止 开 
发 。 目 前 最 新 的 游戏 机 几乎 都 是 x86 体 系 的 CPU， 加 
上 GPU, 或 者 将 二 者 做 成 一 个 芯片 并 以 更 高 速 的 总 线 
将 CPU 和 GPU 片 内 连接 ， 称 之 为 APU。 
在 众 核心 上 调度 任务 ， 有 两 种 方式 。 一 种 是 将 同 
一 个 任务 分 层 多 步 ， 每 个 核心 执行 其 中 一 步 ， 执 行 结 
果 传递 给 下 一 个 核心 继续 处 理 下 一 步 ， 流 水 线 化 之 后 ， 
就 可 以 提高 整体 吞吐 量 。 这 种 任务 处 理 方式 一 个 典型 例 
子 是 网 络 防 火 墙 ， 防 火 墙 设备 处 理 一 个 网 络 数 据 包 ， 
需要 经 过 多 道 工序 ， 比 如 校 验 、 解 析 地 址 、 排 查 ACL、 
匹配 正则 表达 式 等 ， 每 个 核心 可 以 只 做 一 件 事 ， 比 如 
匹配 ACL， 一 个 包 进 来 匹配 完了 走 人 ， 再 下 一 个 包 ， 
这 样 ， 每 个 核心 都 全 速 运转 ， 只 要 匹配 好 每 一 步 的 速 
度 。 上 述 这 种 协作 处 理 方式 可 以 称 之 为 非 对 称 式 异 构 
协作 ， 也 就 是 每 个 核心 处 理 不 同 数据 的 同一 个 子 工序 
步骤 ， 这 也 是 现实 中 的 工业 生产 流水 线 的 常规 做 法 。 
然而 ， 有 些 业务 并 不 适合 这 样 处 理 ， 比 如 3D 图 像 
泻 染 时 光线 追踪 的 计算 ， 其 计算 过 程 中 并 不 是 我 算 完 了 
扔 给 你 就 不 管 了 ， 而 可 能 会 回来 追溯 让 你 提供 更 多 信 
息 ， 这 就 麻烦 了 ， 多 个 子 工序 之 间 有 很 强 的 关联 性 ， 需 
要 不 断 地 沟通 交互 数据 ， 这 一 交互 数据 就 得 走 外 部 网 
络 ， 此 时 时 延 大 增 ， 那 么 CPU 就 会 更 多 原 地 空转 。 面 对 
这 种 场景 ， 就 需要 切换 到 另 一 种 数据 切 分 方式 上 一 
对 称 式 同 构 协 作 。 比 如 光线 追踪 计算 ， 可 以 将 要 处 理 的 
图 像 分 割 成 多 个 切片 ， 由 主线 程 负责 切 分 并 生成 任务 
描述 结构 和 数据 指针 ， 放 置 在 SDRAM 中 ， 形 成 一 个 队 
列 ， 然 后 众 核心 上 运行 的 辅助 线程 从 队列 中 提取 任务 
执行 ， 多 个 辅助 线程 并 行 处 理 完成 每 个 数据 切片 的 所 
有 工序 ， 工 序 之 间 有 无 依赖 都 没有 关系 ， 因 为 是 在 同 
一 个 核心 之 内 依赖 ， 不 牵扯 到 核心 之 间 的 数据 交换 ， 
不 会 受到 高 时 延 网 络 的 太 多 影响 ， 最 后 由 主线 程 将 结 
果 汇 总 输出 。 在 这 种 调度 方式 下 ， 每 个 核心 之 间 完全 
不 相关 ， 各 干 各 的 。 典 型 的 ， 比 如 数据 搜索 1GB 的 数 
据 ， 每 个 核心 载 入 其 中 的 一 部 分 ， 然 后 搜 ， 各 搜 各 的 。 
图 6-66 为 某 802.11a 基 带 信号 处 理 芯 片 内 部 架构 。 
左上 角 所 示 为 信号 处 理 的 每 一 步 流程 ， 右 上 角 为 针对 
这 些 流程 所 设计 的 众 核心 节点 处 理 模块 ， 每 个 节点 负 


责 某 步 或 者 某 几 步 的 处 理 。 左 下 角 为 芯片 布局 示意 
图 ， 其 中 使 用 3 个 纯 数字 逻辑 加 速 处 理 模块 (图 中 的 
Accelerator， 详 见 第 9 章 ) ， 其 他 都 是 可 编程 运行 代码 
的 CPU 核心 ， 外 加 一 个 SDRAM 控 制 器 和 SDRAM。 中 
间 右 下 角 以 及 最 右 侧 图 所 示 为 该 2D Full Mesh мост 
的 一 个 节点 Switch 内 部 的 交换 路 径 示意 图 ， 基 于 Mux/ 
Demux 的 交换 。 所 有 核心 对 数据 的 处 理 方式 上 很 显然 
都 属于 非 对 称 式 异 构 协作 方式 。 

扎实 ， 一定 要 扎实 ， 不 能 说 每 走 一 小 步 吧 ， 最 起 
码 走出 一 大 步 以 后 ， 一 定 要 再 回头 把 来 龙 去 脉 梳理 清 
楚 ， 知 道 自己 从 哪里 来 ， 要 到 哪里 去 。 我 们 的 思维 已 
经 走 得 有 点 远 了 ， 在 这 里 再 次 明确 一 下 我 们 在 本 章 探 
索 的 最 终 目的 是 什么 ， 那 就 是 将 所 有 的 核心 、 缓 存 、 
SDRMA 互 联 起 来 ， 然 后 用 网 络 来 承载 缓存 的 同步 ， 解 
决 缓存 一 致 性 问题 。 至 此 我 们 刚刚 了 解 了 一 些 可 能 的 、 
主流 的 互联 方式 ， 下 一 步 需要 考察 在 这 个 网 络 上 ， 各 
种 部 件 之 间 的 关系 以 及 位 置 ， 以 及 各 种 来 龙 去 脉 ， 因 
果 关 系 ， 为 解决 缓存 一 致 性 问题 打下 更 坚实 的 基础 。 


6.4 存储 器 在 网 络 中 的 分 布 


存储 器 可 以 与 核心 采用 任何 方式 互联 ， 核 心 并 
不 关心 它 所 访问 的 地 址 的 数据 到 底 被 放 在 哪里 ， 你 放 
到 月 球 上 用 卫星 发 回来 ， 核 心 也 不 知道 ， 核 心 它 只 知 
道 发 出 地 址 ， 发 出 操作 码 ， 数 据 返回 时 下 级 电路 会 在 
Ready 信 号 线 上 拉 低 /高 电 平 ， 核 心 将 数据 导线 上 的 电 
压 进行 锁 存 ， 就 拿 到 了 数据 。 从 访 存 请 求 发 出 ， 到 成 
功 拿 到 数据 或 者 写 出 数据 ， 所 耗费 的 时 间 ， 被 称 为 
Load to_Use Latency， 也 就 是 访 存 时 延 ， 这 个 时 延 越 
小 越 好 ， 否 则 核心 原 地 空转 比例 太 高 。 这 就 是 要 加 一 
层 层 缓存 的 原因 ， 也 是 不 能 把 硬盘 上 的 存储 空间 映射 
到 全 局 地 址 空间 中 统一 路 由 的 原因 。 

在 可 接受 的 时 延 范围 内 ， 如 果 你 愿意 ， 可 以 将 组 
存 和 SDRAM 主 存 以 距离 核心 任意 距离 的 任意 拓扑 进 
行 任意 放置 ， 只 要 有 电路 负责 将 核心 发 出 的 访 存 请 求 
路 由 到 正确 的 目标 存储 器 即 可 。 访 问 L1 缓 存 可 接受 的 
时 延 范围 在 三 四 个 核心 时 钟 周期 ， 所 以 L1 缓 存 与 核心 
L/S 单元 之 间 最 好 是 直接 用 寄存 器 连接 起 来 ， 比 如 一 
个 FIFO 队 列 ， 也 就 是 L/S 队列 ， 你 放 进去 ， 我 拿 走 ， 
这 样 最 直接 最 迅速 ， 这 种 通信 方式 被 称 为 寄存 器 接口 
(Register Interface) 。 


提示 > 
寄存 器 接口 是 所 有 通信 方式 中 最 原始 的 方式 ， 
其 未 经 任何 处 理 ( 比如 信号 重新 编 解码 、 串 并 转 
换 、 波 形 重 整 、 附 加 上 一 些 控制 字段 等 ) АЕ 
快 ， 但 是 局 限 性 也 很 大 ( 详 见 下 面 提示 框 ) ， 是 所 
有 通信 方式 的 始 发 点 和 终点 。 在 寄存 器 和 寄存 器 
之 间 增 加 一 些 控制 和 处 理 ， 就 会 形成 各 种 上 层 的 
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网 络 通信 方式 ， 也 就 是 先 将 数据 从 发 送 方 寄 
存 器 传送 到 处 理 模块 中 的 寄存 器 ， 处 理 模块 
对 数据 做 处 理 ( 比如 上 面 括号 中 那些 ) , 通 
过 各 式 各 样 的 网 络 发 送 到 目标 端 ， 网 络 中 流 
消 的 数据 可 能 是 已 经 变化 了 很 多 的 、 且 被 附 
加 了 很 多 控制 信息 的 数据 ， 目 标 端的 处 理 模 
块 接收 这 些 数据 ， 再 将 数据 还 原 成 最 原始 的 


数据 ， 然 后 将 数据 传送 到 最 终 目 标的 寄存 器 


中 ， 所 有 的 数字 通信 线路 的 两 端 都 始 于 寄存 
器 ， 终 于 寄存 器 。 


工 ! 与 L2 缓 存 之 间 通 常 也 采用 寄存 器 接口 。 
于 L3 缓 存 要 被 多 核心 共享 访问 ， 这 就 需要 使 
用 总 线 /Crossbar/Ring 等 网 络 方式 把 多 个 核心 的 
L/S 单元 与 L3 缓 存 控制 器 连接 起 来 ， 这 样 的 话 ， 
就 不 能 寄存 器 直 连 了 ， 必 须 增加 一 个 总 线 /网 
络 控制 电路 来 让 数据 有 序 地 发 送 到 目的 端 。 图 
6-67 为 这 个 过 程 的 演化 示意 图 ， 从 最 原始 的 寄 
存 器 直 连 再 到 总 线 再 到 网 络 方式 。 总 线 控制 器 
的 作用 除了 实现 多 个 模块 同时 发 起 请 求 时 的 仲 
裁 之 外 ， 还 负责 将 输送 到 总 线 上 的 信号 进行 加 
强 处 理 ， 因 为 总 线 的 电容 非常 高 ， 需 要 强劲 澎 
洲 的 充 放电 ， 总 线 控制 器 中 会 有 对 应 的 电路 来 
做 这 件 事 ， 称 之 为 总 线 驱 动 电路 。 另 外 ， 当 某 
个 模块 没有 数据 要 发 送 或 者 接收 的 时 候 ， 驱 动 
电路 会 关闭 与 总 线 连接 的 电路 ， 从 而 不 吸收 也 
不 放出 电流 ， 既 达到 省 电 目 的 ， 又 能 保证 总 线 
的 电容 恒定 。 具 体 是 使 用 三 态 缓冲 门 电路 来 实 
现 ， 其 可 以 让 电路 处 于 高 阻 态 〈 可 以 回顾 一 下 
第 1 章 1.3.7 节 “1 和 0 的 秘密 ”中 的 内 容 ) 。 


值得 一 提 的 是 ， 图 6-67 中 所 示 的 各 处 连 
接 依然 用 的 是 多 位 并 行 的 导线 。 如 果 网 络 规 
模 继续 扩张 ， 部 件 之 间 的 距离 就 会 增加 ， 此 
时 如 果 继续 采用 并 行 总 线 的 话 ， 第 一 成 本 太 
高 ， 大 量 并 排 在 一 起 的 导线 将 占用 太 多 的 芯 
片面 积 ; 第 二 由 于 寄生 电容 的 增加 以 及 导线 
间 的 电磁 干扰 因素 ， 使 得 导线 能 够 承载 的 频 
率 达 到 瓶颈 。 因 此 这 时 需要 使 用 串 行 传送 方 
式 ， 需 要 在 收发 双方 的 数据 寄存 器 前 端 增加 
一 个 串 并 转换 器 (SERDES ， 见 第 1 章 ) ， 
使 得 最 少 只 利用 一 收 一 发 两 根 导线 就 可 以 传 
送 数据 ， 再 辅 之 以 信号 整形 电路 对 信号 波形 
进行 预 加 重 以 抗衡 外 界 的 干扰 ， 这 样 就 能 够 
将 频率 提升 到 截至 当前 的 25GHz。 这 种 链 路 
称 为 事 行 链 路 。 还 可 以 并 排放 置 多 个 串 行 链 
路 ， 再 次 将 它们 并 行 化 ， 但 也 不 能 放置 太 多 。 
传统 的 地 址 、 数 据 、 控 制 三 大 独立 总 线 ， 如 
果 改 用 串 行 传输 ， 那 么 就 需要 把 这 三 个 信息 
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图 6-67 最 原始 的 寄存 器 直 连 再 到 总 线 再 到 网 络 


打包 成 一 串 位 流 ， 也 就 是 数据 包 中 串 行 传输 出 去 ， 
这 就 要 求 这 个 数据 包 必 须 规定 好 对 应 的 格式 ， 比 如 
一 个 数据 包 的 前 1 字 节 作为 操作 码 ( 读 / 写 等 ) Ф 
间 4 字 节 作 为 起 始 存储 器 地 址 ， 后 面 1 字 节 描述 本 次 
访 存 的 长 度 ( 字 节 数 ) ， 再 后 面 1 字 节 作 为 其 他 控 
制 码 ， 再 后 面 64 字 节 为 本 次 访 存 要 写 入 存储 器 的 实 
际 数据 (俗称 有 效 载荷 ，payload ) 。 目 标 端 接收 
到 这 个 数据 包 ， 就 要 根据 规定 的 各 字段 的 长 度 ， 提 
取出 对 应 的 信息 ， 并 输送 到 译 码 等 电路 模块 中 进行 
后 续 处 理 。 当 然 ， 也 可 以 用 另 一 种 方式 ， 同 样 采用 
串 行 传输 ， 双 方 约定 好 ， 访 存 时 先 发 送 一 个 包含 操 
作 码 、 控 制 码 和 起 始 地 址 的 数据 包 给 目标 端 ， 目 标 
端 接 收 之 后 ， 电 路 做 好 接收 数据 的 准备 ， 发 送 方 再 
发 送 含有 有 效 载荷 数据 的 数据 包 ， 可 以 接连 发 送 多 
个 ， 然 后 传送 一 个 含有 结束 标志 的 数据 包 告 诉 接收 
方 所 有 数据 发 送 完毕 。 可 以 看 到 ， 同 样 是 利用 串 行 
链 路 ， 但 是 数据 收发 的 姿势 可 以 大 不 相同 。 我 们 将 
并 行 、 串 行 、 速 率 、 位 宽 等 这 些 用 于 规定 底层 传输 
介质 和 方式 的 约定 称 为 通信 的 物理 层 协议 ， 而 把 收 
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发 双方 约定 好 的 对 于 数据 的 交互 方式 和 步骤 等 ， 称 
为 通信 的 链 路 层 协议 。 一 般 来 讲 ， 片 内 网 络 多 采用 
并 行 链 路 ， 因 为 其 导线 距离 短 ， 运 行 频率 尚 可 接 
受 ， 片 内 网 络 属于 局 部 网 络 /局 部 总 线 。 而 芯片 间 
的 互联 网 络 则 属于 外 部 网 络 ， 通 常 都 采用 串 行 传输 
方式 。 但 是 在 早期 ， 比 如 2005 年 之 前 ， 芯 片 间 也 普 
遍 采 用 局 部 网 络 /总 线 来 连接 ， 因 为 那 时 的 运行 频 
率 非常 低 ， 即 使 导线 距离 长 问题 也 不 大 。 但 是 不 管 
什么 网 络 ， 其 本 质 依 然 是 发 送 方 和 接收 方 的 寄存 器 
之 间 的 数据 交互 ， 数 据 的 发 源 地 和 目的 地 一 定 是 在 
存储 器 中 ， 而 其 “行走 ”的 时 候 一 定 是 在 直 连 导 
线 、 总 线 、 网 络 中 的 Mux/Demux 远 辑 门 中 穿梭 的 。 


6.4.1 CPU 片 内 访 存 网 络 与 存储 器 分 布 


如 图 6-68 所 示 ， 与 核心 L/S 单元 或 者 下 单元 直接 相 
连 的 是 L1 缓 存 控制 器 ， 当 然 还 有 MMU， 后 者 要 并 行 
做 虚实 地 址 转换 ， 转 换 完 的 物理 地 址 还 是 要 再 次 输送 
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给 L1 缓 存 控制 器 。 

IL/S 单 元 与 L1 缓 存 控制 之 间 、L1 与 L2 缓 存 控制 器 
之 间 可 以 采用 寄存 器 直 连 接口 ， 或 者 排队 的 寄存 器 直 
连接 口 〈 其 实 就 是 FIFO) ， 这 样 最 便捷 。 

而 L2 与 L3 缓 存 之 间 的 接口 ， 由 于 L3 缓 存 是 多 核 
心 共享 ， 所 以 多 采用 总 线 、Crossbar、Ring、Mesh 等 
NoC 形 式 ， 所 以 其 采用 一 个 专用 的 接口 控制 器 ， 接 口 
控制 器 前 端 与 L2 缓 存 控制 器 之 间 采 用 寄存 器 接口 ， 后 
端 与 总 线 、Crossbar、Ring 采 用 各 自 的 接口 连接 ， 相 
当 于 一 个 接口 转换 器 ，L3 缓 存 控 制 器 前 端 也 需要 前 
置 一 个 对 应 的 接口 控制 器 ， 前 端 与 总 线 、Crossbar、 
Ring 等 网 络 对 接 ， 后 端 与 L3 缓 存 控制 器 对 接 。 

图 6-69 为 CPU 片 内 多 核心 与 缓存 、 主 存 的 布局 示 
意图 。SDRAM 控 制 器 也 可 以 接 入 到 多 核心 的 前 端 网 
络 /总 线 上 。 

可 以 看 到 ， 图 中 存在 一 个 瓶颈 点 ， 那 就 是 L3 缓 存 
控制 器 。 对 于 基于 Crossbar 和 Ring 网 络 的 多 核心 缓存 互 
联 架 构 来 讲 ， 虽 然 Crossbar、Ring 都 可 以 允许 任意 两 点 
间 同 时 通信 ， 是 一 种 无 阻塞 网 络 ， 但 是 所 有 访问 L3 缓 
存 的 请 求 ， 都 要 在 L3 缓 存 控制 器 前 端的 FIFO 排 队 ，L3 
缓存 每 个 时 钟 周期 只 能 处 理 一 条 访 存 请 求 ， 所 以 多 个 
核心 访问 L3 缓 存 的 本 质 过 程 依然 是 有 阻塞 的 。 如 果 能 
够 让 L3 缓 存 同时 处 理 多 个 请 求 ， 那 就 需要 把 L3 缓 存 分 
割 为 多 个 分 片 ， 每 个 分 片 都 加 入 一 个 缓存 控制 器 ， 然 
后 多 个 核心 发 出 的 访 存 请 求 恰好 各 自 落 入 一 个 分 片 ， 
上 面 这 几 个 条 件 缺 一 不 可 。 如 果 不 将 缓存 分 片 ， 只 改 
进 缓存 控制 器 ， 让 它 并 行 执行 多 个 请 求 是 做 不 到 的 ， 
因为 每 个 请 求 都 要 并 行 搜索 全 部 L3 缓 存 的 所 有 路 。 

如 图 6-70 所 示 ， 为 了 减少 共享 访问 冲突 ， 多 数 


CPU 都 直接 连接 了 多 个 L3 缓 存 控制 器 +L3 缓 存 到 网 络 
中 ， 比 如 图 中 的 4 个 。 这 样 可 以 并 发 4 个 请 求 ， 前 提 是 
每 个 核心 的 请 求 落 入 其 中 一 个 分 片 。 值 得 一 提 的 是 ， 
这 4 分 片 的 L3 缓 存 是 全 局 共享 的 ， 也 就 是 说 某 个 缓存 行 
在 所 有 分 片 中 只 存在 一 份 ， 而 不 是 分 片 1 缓存 了 一 份 ， 
分 片 2 又 缓存 了 一 份 ， 任 何 核心 都 可 以 直接 访问 任何 分 

， 会 有 一 定 的 机 制 来 判断 哪个 地 址 在 哪个 分 片 中 。 

对 于 某 个 缓存 行 ， 需 要 选择 到 底 将 它 放 入 到 哪个 
IL3 分 片 中 ， 任 意 放 置 是 不 现实 的 ， 因 为 这 样 每 次 访 存 
就 又 得 并 行 查找 全 部 缓存 行 。 实 际 上 一 般 实现 是 用 访 
存 地 址 的 高 n (n=Logs 分 片 数量 ) 个 位 作为 索引 来 将 
缓存 行 分 散 存放 ， 这 样 的 话 ， 核 心 要 写 入 某 个 缓存 行 
时 ，L2 缓 存 控制 器 先 将 这 高 7 个 位 翻译 成 L3 分 片 位 于 
网 络 中 的 ID， 然 后 网 络 接口 控制 器 向 该 ID 发 出 该 访 存 
请 求 ， 就 将 该 请 求 路 由 到 对 应 的 分 片 中 了 ， 读 过 程 也 
是 一 样 的 操作 方式 。 

但 是 ， 利 用 高 7 个 位 来 分 割 的 方式 ， 容 易 导 致 L3 
缓存 不 能 被 充分 利用 ， 比 如 如 果 多 个 核心 中 运行 的 多 
个 线程 发 出 的 访 存 请 求 恰好 总 是 集中 在 某 个 局 部 地 址 
段 范围 ， 那 么 这 些 请 求 就 会 争 相 落 入 少数 分 片 而 迅速 
撑 满 该 分 片 ， 而 其 他 分 片 拥有 大 量 空闲 空间 无 法 被 利 
用 。 所 以 又 有 一 些 实现 中 ， 缓 存 控制 器 采用 Hash 算 法 
硬件 模块 先 把 地 址 请 求 进行 Hash 计 算 生 成 另外 一 串 
位 ， 然 后 用 这 些 位 来 索引 对 应 的 分 片 ，Hash 算 法 能 够 
保证 即便 是 距离 较 近 的 地 址 的 Hash 结 果 也 会 大 不 相 
同 ， 从 而 做 到 平均 化 。 举 个 例子 ， 假 设 共 有 4 个 缓存 
分 片 ， 利 用 取 余数 操作 来 计算 所 有 访 存 地 址 ， 假 设 要 
访问 的 缓存 行 地 址 为 26， 则 26 二 4 余 2， 该 缓存 行 会 被 
放 到 第 2 个 分 片 ; 缓存 行 地 址 为 ， 则 27 盖 4 余 3， 会 被 
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图 6-70 分 片 的 L3 缓 存 


放 到 第 3 个 分 片 ， 所 以 ，26 和 27 相 隔 很 近 ， 但 依然 被 
放 入 了 不 同 的 分 片 。 实 际 上 ，Hash 算 法 比 取 余 数 更 加 
均衡 ， 有 兴趣 可 以 自行 了 解 。 每 次 L3 缓 存 控制 器 针对 
每 个 访 存 请 求 都 要 做 一 次 Hash 计 算 的 话 ， 会 不 会 产生 
较 大 时 延 呢 ? 一 定 会 的 ，Hash 计 算 可 能 要 耗费 1 个 或 
者 数 个 L3 缓 存 运行 的 时 钟 周期 ， 但 是 由 于 L3 缓 存 已 经 
算是 远离 核心 了 ， 其 访问 时 延 稍 大 一 些 并 不 会 直接 拖 
累 核心 ， 相 比 增加 并 行 性 这 个 更 加 急迫 的 需求 而 言 ， 
牺牲 时 延 也 是 划算 的 。 


6.4.2 CPU 片 外 访 存 网 络 


片 内 多 核心 之 间 可 以 有 多 种 拓扑 ， 从 共享 总 线 、 
Crossbar、Mesh 再 到 Ring。 同 样 ， 多 个 CPU 芯片 之 间 
的 外 部 访 存 网 络 连接 拓扑 ， 也 可 以 基于 这 几 种 。 至 于 
SDRAM 主 存 ， 不 但 需要 被 片 内 多 个 核心 共享 访问 ， 而 
且 需 要 被 多 个 CPU 芯片 共享 访问 ， 所 以 SDRAM 控 制 器 
就 得 放置 在 连接 有 多 个 CPU 芯片 的 外 部 访 存 网 络 上 。 

对 于 通用 CPU 来 讲 ，SDRAM 可 被 直接 寻 址 ， 位 
于 访 存 网 络 〈 如 图 6-71 所 示 ) 的 倒数 第 二 站 〈 最 后 一 
站 是 外 部 VO 控制 器 中 的 用 于 接收 WO 指令 和 数据 /指针 
的 寄存 器 ) 。 

访 存 网 络 内 部 的 所 有 请 求 都 是 针对 存储 器 地 址 的 
访问 和 控制 请 求 ， 访 存 网 络 也 是 CPU 地 址 信号 线 所 能 
够 寻 址 的 全 部 地 址 空间 范围 ， 当 然 缓存 是 个 比较 特殊 
的 场所 ， 对 核心 透明 ， 不 可 直接 寻 址 。 

如 图 6-72 为 一 个 多 CPU 架构 示意 图 。 其 中 片 内 、 
片 外 都 使 用 总 线 方式 互联 。 能 否 将 所 有 CPU 的 核心 和 
L3 缓 存 控制 器 全 部 连接 到 一 个 大 总 线 上 了 呢 ? 理论 上 可 
以 ， 技 术 上 行 不 通 ， 共 享 总 线 无 法 承载 太 多 的 节点 ， 
原因 上 文中 已 经 多 次 提 到 过 。 由 于 L3 缓 存 是 在 单 片 
CPU 内 部 的 多 个 核心 之 间 共 享 的 ， 如 果 把 所 有 L3 缓 
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存 都 连接 到 同一 条 大 总 线 上 ， 那 么 任何 一 个 核心 访 存 
时 ， 其 他 节点 都 要 等 待 ， 很 不 划算 。 所 以 还 是 如 图 所 
示 将 多 个 总 线 分 割 开 ， 各 访问 各 的 比较 合适 ， 当 需要 
缓存 同步 的 时 候 ， 才 将 请 求 发 送 到 片 间 互 联 总 线 上 。 


图 6-71 WEWE CIRA) 


片 内 总 线 与 片 外 总 线 之 间 需 要 一 个 隔离 器 ， 或 者 
说 路 由 器 ， 其 具有 两 个 接口 控制 器 ， 上 游 接口 控制 器 
连接 到 片 内 总 线 ， 从 片 内 总 线 接收 或 者 向 片 内 总 线 发 
送 数据 ， 下 游 的 接口 控制 器 与 片 间 总 线 相 接 ， 从 或 者 
向 片 间 总 线 接收 或 发 送 数据 。 路 由 器 内 部 采用 寄存 器 
直 连 接口 。 路 由 器 从 片 内 总 线 上 接收 请 求 ， 如 果 发 现 
该 请 求 数据 片 内 核心 访问 自己 的 L3 缓 存 的 请 求 ， 则 无 
动作 ; 如 果 发 现 该 请 求 是 缓存 同步 请 求 ， 则 将 该 请 求 
接收 到 内 部 寄存 器 ， 然 后 再 将 该 请 求 发 送 到 片 间 总 线 
上 ， 从 而 其 他 CPU 也 都 能 够 接收 到 ， 接 收 端 则 根据 收 
到 的 请 求 做 相应 的 处 理 动作 。 


图 6-72 一 个 基于 总 线 互联 的 多 CPU 架 构 示意 图 
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6.4.2.1 全 总 线 拓扑 及 南 桥 与 北桥 


2004 年 之 前 ， 当 时 的 主流 消费 级 商用 CPU 是 通 
过 共享 总 线 连接 所 有 的 CPU 芯片 以 及 SDRAM 控 制 器 
的 ， 那 时 候 的 一 个 CPU 芯片 只 有 一 个 核心 ， 内 部 有 L1 
和 L2 缓 存 ， 并 无 L3 缓 存 。 当 时 也 有 更 加 高 端 一 些 的 
CPU 采用 Crossbar 与 SDRAM 控 制 器 相互 连接 。 不 管 
是 采用 总 线 还 是 Crossbar 方 式 ， 这 两 个 网 络 均 需要 大 
量 的 导线 来 组 成 ，Crossbar 还 需要 大 量 的 逻辑 开关 。 
如 果 将 这 一 大 堆 的 导线 部 署 到 电路 板 上 ， 然 后 将 CPU 
芯片 和 SDRAM 控 制 器 芯片 的 触 点 焊接 到 电路 板 上 的 
触 点 ， 理 论 上 可 以 ， 但 是 实际 中 会 有 问题 ， 因 为 将 导 
线 放 到 芯片 外 面 并 不 是 个 好 选择 ， 其 会 受到 较 强 的 干 
扰 ， 布 线 距离 也 会 增加 。 所 以 ， 对 于 高 频率 运行 的 总 
线 ， 必 须 被 放 到 集成 电路 芯片 里 去 ， 而 不 是 裸露 在 芯 
片 外 面 的 电路 板 上 。 

这 个 专门 容纳 CPU 和 SDRAM 之 间 的 访 存 总 线 的 
芯片 ，Intel 称 之 为 MCH (Memory Control Hub) ， 其 
他 CPU 厂商 不 见得 这 么 叫 ， 但 本 质 都 是 一 样 的 。 如 
图 6-73 所 示 ， 可 单独 售卖 的 CPU 芯片 采用 插 针 或 者 触 
点 的 方式 与 主板 上 的 CPU 插 槽 中 的 针 或 者 触 点 接触 ， 
MCH 芯 片 也 将 内 部 的 总 线 输 出 为 触 点 ， 使 用 管 脚 焊 
接 到 电路 板 上 ， 电 路 板 上 只 需要 部 署 一 小 部 分 导线 即 
可 ， 大 量 的 总 线 导 线 被 放置 在 了 MCH 内 部 。 所 以 ， 表 
面 看 上 去 所 有 CPU 与 MCH 芯 片 都 采用 星 形 点 对 点 直 连 
方式 ， 实 则 它们 在 MCH 内 部 是 接 到 总 线 上 了 。SDRAM 
控制 器 通常 被 集成 在 MCH 芯 片 内 部 ， 也 与 总 线 相连 。 

但 是 ， 上 面 这 个 系统 很 不 易 用 ， 因 为 它 缺 乏 IO 子 
系统 ， 无 法 接 入 硬盘 、 键 盘 、 鼠 标 、 显 示 器 、 网 络 。 所 
以 ， 需 要 把 硬盘 通道 控制 器 、 键 盘 / 鼠 标 控制 器 、 网 络 
控制 器 、 显 示 控 制 器 等 一 系列 1O 控 制 器 也 接 入 到 系统 
中 来 。 由 于 IO 方式 太 多 ， 将 所 有 控制 器 都 接 入 到 MCH 
中 的 总 线 是 不 现实 的 ， 尤 其 是 对 于 早期 的 计算 机 来 讲 ， 
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芯片 背面 的 触 点 或 插 针 


芯片 集成 度 非常 低 ， 那 就 需要 再 来 一 个 芯片 专门 接 入 
这 些 IO 控制 器 ，Intel 称 之 为 IJOH (IO Hub ) ，IOH 与 
MCH 芯 片 之 间 通 过 某 种 接口 连接 起 来 。 这 个 接口 属于 
外 部 接口 ， 一 般 不 采用 寄存 器 对 寄存 器 直 连 接口 ， 而 
是 采用 并 行 或 者 串 行 点 对 点 网 络 连接 ， 也 就 是 在 两 端 
的 数据 收发 寄存 器 之 间 加 入 一 些 适合 于 外 部 传输 的 因 
素 ， 比 如 串 并 转换 、 重 新 编 解码 等 物理 层 处 理 ， 以 及 
一 些 链 路 层 的 数据 交互 方式 。 这 个 接口 并 不 是 将 IOH 
中 的 所 有 部 件 连接 到 MCH 内 部 的 总 线 上 ， 虽 然 它 可 以 
这 么 做 ， 但 大 量 的 部 件 连接 到 总 线 ， 会 导致 总 线 运行 
频率 降低 ， 电 容 增 大 了 ， 也 会 拖累 CPU 的 访 存 性 能 。 

MCH 内 部 的 连接 CPU 与 SDRAM 控 制 器 的 总 线 被 
称 为 前 端 总 线 C Front Side Bus, FSB) 。 而 MCH 与 
IOH 之 间 的 总 线 / 链 路 /网 络 被 称 为 桥 间 总 线 ，FSB 与 桥 
间 总 线 被 统称 为 系统 总 线 (System Bus) 。IOH 上 各 
个 IO 控制 器 连接 各 种 设备 所 用 的 总 线 ， 被 统称 为 IO 
总 线 。 图 6-74 为 IOH 和 MCH 的 全 局 架构 示意 图 。 

可 以 看 到 ， 位 于 IOH 上 的 SCSI 硬 盘 通 道 控制 器 的 
后 端 出 来 一 条 SCSI 总 线 。SCSI 是 早期 计算 机 广泛 使 用 
的 一 种 IO 总 线 ， 就 如 同 现在 的 USB 一 样 ， 当 时 都 是 
SCSI 硬 盘 、SCSI 光 驱 、SCSI 打 印 机 、SCSI 磁 带 机 ， 
等 等 。SCSI 协 议定 义 了 一 整套 通信 协议 ， 包 括 物理 层 
接口 方式 、 链 路 层 数据 交互 方式 ， 一 直到 发 送 给 设备 
的 指令 格式 ， 直 到 今天 SCSI 定 义 的 指令 格式 依然 普遍 
被 硬盘 等 存储 设备 所 使 用 着 。 程 序 负责 生成 SCSI 指 令 
(当然 ， 用 户 程 序 不 需要 管 ， 只 需要 调用 底层 程序 提 
供 的 接口 即 可 ， 由 专门 负责 生成 SCSI 指 令 的 程序 来 做 
即 可 ) ， 然 后 将 指令 写 入 到 SCSI 控 制 器 的 寄存 器 中 的 
相应 寄存 器 〈 或 者 将 指令 在 SDRAM 中 的 地 址 写 入 寄 
存 器 ， 让 SCSI 控 制 器 亲自 去 SDRAM 中 读 出 指令 到 自 
己 的 寄存 器 ) ， 剩 下 的 就 交 给 SCSI 控 制 器 来 处 理 了 ， 
SCSI 控 制 器 会 遵循 SCSI 总 线 的 交互 方式 ， 实 现 仲裁 机 
制 ， 并 将 指令 发 送 给 连接 到 SCSI 总 线 的 某 个 设备 来 处 
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理 。 再 来 看 看 IOH 上 的 SATA 控 制 器 ， 与 SCSI 控 制 器 的 
不 同 在 于 ， 其 后 端 连接 的 是 SATA 协 议 的 设备 ， 遵 循 
SATA 协 议 的 物理 层 、 链 路 层 以 及 指令 格式 等 规则 ， 
可 以 看 到 SATA 协 议 规定 控制 器 与 设备 的 连接 方式 为 
点 对 点 方式 ， 但 是 其 运作 原理 与 SCSI 控 制 器 类 似 ， 程 
序 负责 生成 指令 ，SATA 控 制 器 负责 接收 并 向 对 应 的 
SATA 设 备 转 发 指令 以 及 数据 。 历 史上 ， 用 于 连接 硬 
盘 、 光 驱 等 外 部 存储 设备 的 总 线 /网 络 出 现 过 多 种 ， 包 
括 最 早期 的 已 被 淘汰 的 SCSI 总 线 、FC 环 ， 以 及 当前 
普遍 使 用 的 SAS 交 换 网 络 。 

如 果 将 图 中 黑 灰 色 区 域 〈 深 灰 和 浅 灰 ) 称 为 内 存 
区 域 网 络 (Memory Area Network, МАМ) КЕ, Ж 
么 IOH 后 端 连接 的 各 种 IO 设备 所 形成 的 网 络 ， 就 是 IO 
区 域 网 络 (1/O Area Network, IAN) ; 而 IO Network 
中 那些 用 于 连接 各 种 硬盘 、 光 驱 、 磁 带 机 等 外 部 存 
储 设备 的 网 络 又 有 多 种 多 样 的 存在 和 发 展 历史 ， 被 
单列 出 来 称 为 存储 区 域 网 络 (Storage Area Network, 
SAN) 。 关 于 整个 存储 系统 的 知识 ， 可 参阅 冬瓜 哥 所 
著 的 《大 话 存储 终极 版 》 以 及 《大 话 存储 后 传 》 这 两 
本 书 。 


MAN 如 今 已 经 成 为 了 一 个 领域 的 分 支 ， 其 研究 
方向 包括 NoC 以 及 如 何 利用 片 外 网 络 形成 MAN。 截 
至 当前 ， 至 少 存在 下 面 这 些 片 外 访 存 网 络 : Intel 的 
QPI、IBM 的 SMI 和 OpenCAPI、ARM 的 CCIX、HP 
的 GenZ， 还 有 一 些 其 他 非常 用 CPU 所 采用 的 访 存 网 
络 ， 想 冬瓜 哥 孤 陋 寒 闻 不 能 全 部 列 出 了 。 


由 于 制造 主板 的 厂商 一 般 将 MCH 做 在 主板 的 上 
方 ，IOH 做 到 主板 的 下 方 ，MCH 如 同 CPU 和 SDRAM 
控制 器 、IOH 之 间 的 桥梁 一 样 ， 所 以 俗称 MCH 为 北桥 
(North Bridge) ;IOH 为 架 在 MCH 与 各 种 IO 控制 器 之 
间 的 桥梁 ， 俗 称 南 桥 (South Bridge) 。 北 桥 和 南 桥 一 
起 被 称 为 芯片 组 (chipset) ， 共 同 支撑 一 台 计 算 机 的 运 
行 。 北 桥 为 CPU 提供 主 存 访问 通路 ， 南 桥 为 CPU 提供 


IO 访问 通路 ， 所 以 芯片 组 指 的 就 是 为 了 支撑 一 台 计 
算 机 运行 所 需 的 除了 CPU 之 外 的 所 有 芯片 的 集合 。 


CPU、 北 桥 、 南 桥 共 同 被 称 为 芯片 组 ， 意 思 就 
是 只 靠 CPU 这 一 颗 芯 片 并 不 能 支撑 起 整个 系统 的 运 
行 ， 必 须 是 一 组 芯片 。 当 然 ， 目 前 的 CPU 集成 度 越 
来 越 高 ， 正 在 逐渐 将 越 来 越 多 的 角色 集成 到 CPU 芯 
片 内 部 去 。 


如 果 没 有 IO 部 分 ， 只 有 CPU 和 SDRAM 的 话 ， 北 
桥 内 部 什么 都 不 用 做 ， 就 是 一 个 大 总 线 。 但 是 现在 ， 
加 入 I/O 桥 之 后 ， 还 是 用 总 线 方式 的 话 效率 会 非常 
低 ， 拖 累 核心 的 运行 频率 ， 所 以 北桥 内 部 变 为 Crossbar 
方式 连接 CPU、SDRAM 控 制 器 以 及 IO 桥接 口 控制 器 。 
有 了 Crossbar， 就 要 有 路 由 表 以 判断 接收 到 的 数据 到 底 
发 往 哪个 接口 ， 而 总 线 是 不 需要 路 由 的 ， 因 为 总 线 上 
的 数据 所 有 人 都 能 收 到 ， 但 是 所 有 连接 到 总 线 的 节点 
必须 明确 知道 对 应 的 数据 是 不 是 给 自己 的 ， 所 以 总 线 
上 每 个 节点 需要 维护 一 个 描述 自身 所 承载 的 访 存 地 址 
范围 基地 址 和 长 度 的 寄存 器 ， 以 供 BIOS 程 序 在 初始 化 
做 地 址 映射 的 时 候 写 入 分 配 好 的 基地 址 和 长 度 。 

所 以 ， 北 桥 和 南 桥 的 本 质 是 路 由 器 ， 它 们 路 由 的 
是 访 存 请 求 ， 根 据 CPU 发 出 的 访 存 请 求 中 的 地 址 来 判 
断 该 地 址 落 入 了 SDRAM 中 还 是 连接 在 IO 桥 上 的 IO 控 
制 器 寄存 器 或 者 BIOS ROM， 然 后 利用 内 部 接口 ， 比 
如 基于 Crossbar 的 寄存 器 直 连 接口 ， 将 请 求 转发 给 对 应 
的 目标 ; 如果 MCH 判 定 某 地 址 落 入 了 IOH 后 面 ， 则 通 
过 桥 间 接口 发 送 给 IOH 处 理 ，IOH 也 需要 判断 哪个 地 
址 落 入 了 哪个 IO 控制 器 寄存 器 中 ， 然 后 转发 给 对 方 。 
MCH 和 IOH 的 路 由 表 是 由 BIOS 程 序 在 系统 启动 初始 化 
的 时 候 写 进去 的 ，MCH 和 IOH 各 自 都 有 一 些 控制 寄存 器 
和 用 于 存放 路 由 地 址 范围 的 寄存 器 ， 这 些 寄存 器 会 被 映 
射 到 地 址 空间 默认 的 地 方 ， 假 设 地 址 空间 内 的 0 一 1024 
字 节 是 MCH 的 控制 寄存 器 (包含 存放 路 由 信息 的 寄存 
器 ) ， 那 么 MCH 收 到 落 入 这 个 范围 的 访 存 请 求 ， 就 会 
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将 数据 传送 到 其 内 部 的 控制 寄存 器 或 者 从 其 中 读 出 。 

这 一 整套 的 转发 判断 和 控制 逻辑 ， 由 片 内 的 一 
个 关键 电路 模块 完成 ， 再 辅 之 以 外 围 的 电路 ， 比 如 总 
线 控制 器 (负责 仲裁 、 从 总 线 收 发 数据 等 ) 、 与 IOH 
之 间 的 接口 控制 器 、SDRAM 控 制 器 等 ， 就 是 一 片 北 
桥 芯片 了 。 南 桥 中 也 是 同样 的 玩法 。 北 桥 和 南 桥 内 部 
的 路 由 模块 的 核心 其 实 是 一 个 Crossbar， 从 而 可 以 做 
到 将 接收 到 的 数据 转发 到 任何 一 个 接口 的 寄存 器 中 。 

现在 思考 一 个 问题 : 既然 共享 总 线 的 通信 方式 
非常 低 效 ， 那 么 为 何不 做 成 点 对 点 直 连 的 方式 呢 ? 比 
如 上 图 中 SATA 控 制 器 连接 SATA 设 备 的 方式 。MCH 
芯片 难道 不 能 换 成 这 种 方式 么 ? 是 的 ，CPU 厂 商 也 是 
这 么 想 的 ， 之 所 以 用 总 线 是 因为 省 成 本 ， 实 现 简单 。 
当然 ， 随 着 芯片 制作 工艺 不 断 提 升 ， 频 率 可 以 提升 ， 
功 耗 可 以 降低 ， 自 然 也 就 可 以 将 总 线 升 级 成 点 对 点 方 
式 ， 尤 其 是 只 有 2 个 CPU 的 时 候 ， 没 必要 用 Crossbar， 
点 对 点 最 合适 。 或 者 让 MCH 出 多 条 FSB， 每 个 FSB 上 
少 接 几 个 CPU， 比 如 2 个 FSB， 每 个 FSB 接 2 个 CPU， 
而 不 是 用 一 个 FSB 接 4 个 CPU。 

在 2005 年 ， 有 些 商 用 CPU 就 实现 了 这 种 方式 ， 如 
图 6-75 所 示 。 这 种 架构 下 ， 一 个 CPU 想 要 访问 内 存 ， 
首先 要 在 自己 所 处 的 总 线 上 与 其 伙伴 竞争 赢得 仲裁 ， 
赢家 进入 二 轮 选拔 ， 与 其 他 总 线 的 赢家 一 起 ， 再 经 过 
北桥 的 选拔 〈 按 照 一 定 策略 ， 比 如 Round Robin 轮 流 
等 ) ， 最 终 获 胜 者 就 会 赢得 内 存 控制 器 的 访问 权 了 。 
这 种 结构 降低 了 内 耗 ， 增 加 了 总 线 带宽 利用 率 ， 但 是 
也 带 来 不 方便 的 地 方 ， 出 现 了 新 的 部 件 来 解决 问题 ， 
如 图 中 的 Snoop Filter 〈 嗅 探 过 滤器 ， 还 记得 我 们 在 6.3 
节 一 开始 提 到 过 的 过 滤 缓 存 同步 的 装置 么 ? 就 是 这 
个 ， 本 来 CPU 之 间 需 要 相互 连接 通信 同步 缓存 的 ， 但 
是 在 这 种 设计 之 下 ，CPU 之 间 被 北桥 分 割 开 了 ， 无 法 
通信 ， 所 以 北桥 需要 在 两 个 总 线 之 间 负 责 转 发 缓存 同 
步 流量 ， 同 时 还 得 过 滤 不 必要 的 流量 ) 。 关 于 这 个 部 件 
详 见 后 面 的 章节 ， 缓 存 一 致 性 问题 是 我 们 本 章 要 解决 的 
最 终 问 题 。 
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图 6-75” 双 总 线 北 桥 
随 着 工艺 不 断 提升 ， 总 线 带宽 越 来 越 大 ， 由 此 自 


然而 然 想 到 ， 干 脆 抛 弃 共享 总 线 得 了 ， 与 其 两 个 人 争 
抢 仲裁 ， 一 旦 冲突 了 还 得 再 争 抢 ， 永 无 休止 ， 还 不 如 
干脆 让 北桥 这 个 公平 公正 的 主持 人 来 集中 决定 所 有 人 
的 说 话 权 ， 大 家 轮流 来 。 

图 6-76 为 2007 年 Intel 的 某 CPU 所 实现 的 多 CPU 点 
对 点 直 连 北桥 的 架构 示意 图 。 可 以 看 到 ， 前 端 总 线 带 
宽 明 显 提升 了 数 倍 。 因 为 每 个 CPU 都 各 自 独立 的 直接 
与 北桥 连接 ， 这 就 不 存在 内 耗 了 。 
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"O 
图 6-76 点 对 点 直 连 北桥 


北桥 上 的 内 存 控制 器 正在 优 哉 游 哉 地 空转 ， 等 
待 CPU 们 一 帮 乌 合 之 众 争 抢 总 线 ， 然 后 向 自己 发 出 访 
存 请 求 ， 结 果 突 然 发 现 CPU 们 很 有 秩序 地 不 再 争吵 
了 ， 北 桥 这 个 门卫 很 有 秩序 地 安排 CPU 一 个 一 个 地 轮流 
访问 内 存 ， 内 存 控制 器 再 也 闲 不 下 来 了 ， 无 时 无 刻 不 在 
保持 着 忙碌 状态 。 现 在 轮 到 CPU 不 高 兴 了 ， 我 们 都 排队 
不 争 抢 了 ， 人 怎么 还 这 么 慢 ? 强烈 要 求 增加 内 存 控制 器 的 
数量 ! 

内 存 控制 器 成 了 瓶颈 ， 自 然而 然 就 会 想到 一 种 
设计 思路 : 放置 多 个 内 存 控制 器 ， 接 多 批 内 存 不 就 
ТТА? 是 的 ， 有 些 产品 的 确 是 这 么 做 的 。 多 个 内 
存 控制 器 下 面 的 所 有 内 存 同 处 在 一 个 全 局 地 址 空间 
中 ，BIOS 需 要 将 每 个 内 存 控制 下 的 所 有 空间 处 在 全 
局 地 址 空间 中 的 基地 址 写 入 到 北桥 相应 的 路 由 信息 
寄存 器 中 。 


6.4.2.2 AMD Athlon 北 桥 


图 6-77 为 AMD 比 较 经 典 的 一 款 叱 喀 风 云 的 
CPU 一 一 Athlon 〈 阿 瑟 龙 ) 平台 下 的 北桥 “AMD 称 之 
为 系统 控制 器 ) 内 部 功能 模块 的 示意 图 ， 可 以 清楚 地 
看 到 ， 其 中 MRO 为 Memory Request Organizer， 其 相 
当 于 一 个 仲裁 器 以 及 访问 优化 器 和 Probe/Snoop Agent 

(用 于 缓存 一 致 性 同步 和 过 滤 ) ， 两 个 BIU (Bus 
Interface Unit) 分 别 与 两 颗 CPU 通 过 前 端 总 线 对 接 。 
CFG 指 的 是 北桥 内 部 的 各 种 控制 寄存 器 〈 供 BIOS 写 入 
控制 信息 ， 这 个 过 程 是 BIOS 在 初始 化 时 对 北桥 进行 
配置 ， 也 是 Config/CFG 的 由 来 ) 。PCI 总 线 是 一 种 专 
门 用 于 连接 高 速 UO 设备 的 高 速 总 线 ， 图 中 PCI 就 是 指 
PCI 总 线 控制 器 。AGP 是 当时 专门 为 高 端 显示 卡 开发 
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Read Request: | would like data for cachline 0x001CA980 


Snoop Response: No 
SDRAM MCT: RAS to rank 2, bank 0, row 0x00842 
SDRAM MCT: CAS to rank 2, bank 0, col 0x0C3 
SDRAM MCT: Here's the data. 


图 6-78 Athlon 平台 北桥 的 缓存 一 致 性 广播 方式 示意 图 


的 一 种 高 速 /O 总 线 ， 图 中 的 AGP 就 是 AGP 总 线 控制 
器 。MCT 指 的 是 SDRAM 控 制 器 。 整 个 芯片 约 50 万 门 
电路 ， 面 积 1.1cm。 右 图 为 Athlon 平 台北 桥 芯 片 的 模 
块 布局 图 。 

现在 ， 冬 瓜 哥 决定 来 点 有 挑战 的 ， 率 先 介 绍 一 下 
Athlon 这 款 北 桥 处 理 缓存 一 致 性 的 其 中 某 个 步骤 。 图 
6-78 为 这 款 北桥 转发 访 存 请 求 的 过 程 。 

可 以 看 到 ， 每 当 北 桥 收 到 某 个 CPU 发 出 的 访 存 
请 求 ， 北 桥 都 会 同时 发 送 该 请 求 给 SDRAM 控 制 器 
以 及 其 他 CPU。 访 存 、 访 存 ， 访 问 存储 器 ， 只 发 给 
SDRAM 控 制 器 好 了 ， 为 何 要 发 给 其 他 CPU 呢 ? 因为 
该 缓存 行 对 应 的 数据 可 能 已 被 其 他 某 个 或 者 某 些 CPU 
读 入 到 它们 内 部 的 缓存 中 了 ， 甚 至 已 经 更 改过 ， 而 
SDRAM 中 这 一 行 的 数据 很 有 可 能 是 过 期 的 。 所 以 ， 
其 他 CPU 内 部 需要 有 一 个 专门 的 部 件 来 负责 接收 这 种 
探 询 (robe) 请 求 ， 并 去 查找 内 部 的 缓存 ， 将 结果 


Snoop Request: Do you have сасћИпе 0x001CA980 7 
Memory Fetch: Give me data for 0x001CA980. 


Snoop Response: Yes, I have this cache line 
SDRAM MCT: RAS to rank 2, bank 0, row 0x00842 
SDRAM MCT: CAS to rank 2, bank 0, col 0x0C3 
МКО: Here's the data. 


发 送 回 来 以 供 北桥 判断 。 同 时 发 送 给 其 他 CPU 以 及 
SDRAM 控 制 器 ， 是 因为 一 旦 另 一 个 CPU 的 缓存 内 并 
没有 该 地 址 缓存 行 的 最 新 副本 ， 那 么 倒 头 来 还 得 从 
SDRAM 读 ， 所 以 为 了 节省 时 间 ， 不 管 其 他 CPU 返回 
什么 结果 ， 都 让 RAM 先 读 着 。 如 果 接 到 另 一 个 或 者 
多 个 CPU 反馈 的 结果 发 现 它们 那里 真 没有 这 个 行 ， 那 
么 从 RAM 读 出 的 数据 就 派 上 了 用 场 ， 直 接 返回 给 请 
求 者 ， 如 果 另 一 个 CPU 反馈 说 有 ， 那 么 该 CPU 将 数据 
发 送 给 MRO，MRO 再 转发 给 请 求 者 ， 同 时 丢弃 已 从 
RAM 读 出 的 数据 。 

图 6-79 为 BIU 接 口 控制 器 内 部 的 架构 示意 图 。 可 
见 ，BIU 并 不 仅仅 是 收发 数据 ， 还 圳 括 了 处 理 上 述 步 
又 的 一 些 电路 模块 ， 其 需要 识别 对 应 的 请 求 类 型 ， 然 
后 做 相应 的 事情 ， 还 得 发 出 相应 的 回复 ， 比 如 “ 收 
到 ”“ 读 完成 了 ”“ 写 完成 了 ”等 这 些 固定 模式 的 数 
据 ， 都 会 存储 在 这 些 内 部 电路 模块 中 。 
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OARS POAC ОНАЙ 那么 ， 然 后 呢 ? 现在 这 两 个 CPU 的 缓存 中 都 有 这 
ш легу 个 缓存 行 ， 如 果 某 个 CPU 更 改 了 这 行 缓存 ， 北 桥 是 不 
知道 的 ， 另 外 一 个 CPU 也 是 不 知道 的 ， 这 就 产生 了 缓 


ss | ушынан 。” 存 一 至 性 问题 。 北 桥 无 法 解决 ， 所 以 得 想 其 他 办 法 。 
55 ш g с. 读者 可 以 自己 先 想 想 ， 思 考 思考 ， 纠 结 纠结 ， 体 会 体 
4; = | | 会 ， 等 达到 本 章 最 终 目的 之 后 ， 就 会 更 加 深刻 地 理解 
= Other BIU 该 问题 。 
== г MRO, PCI & АРС 

oram 6.4.2.3 ”常用 网 络 拓扑 及 UMA/NUMA 
кн 总 线 无 疑 是 低 效 的 。 图 6-80 一 图 6-84 为 基于 非 总 线 
图 6-79 点 对 点 直 连 北桥 拓扑 的 各 种 片 外 网 络 的 系统 示意 图 ， 其 中 绿色 部 分 位 


图 6-81 片 内 Crossbar 片 外 Ring 架 构 
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6-83 片 内 片 外 都 为 Ring 架 构 


9 可 大 话 计算 机 一 一 计算 机 系统 底层 架构 原理 极限 剖析 


6-84 ” 片 内 Ring 片 外 多 级 Crossbar Mesh 架 构 


于 北桥 芯片 内 部 。 

纵 观 上 述 几 种 架构 ，SDRAM 都 是 被 集中 挂 接 在 
外 部 网 络 上 的 ， 所 有 CPU 的 未 命中 缓存 的 访 存 流量 都 
会 被 外 部 网 络 路 由 到 与 SDRAM 控 制 器 连接 的 网 络 端 
口上 ， 那 么 很 自然 地 ， 这 个 端口 的 缓冲 队列 将 长 期 处 
于 高 压 状态 ， 一 旦 队列 被 充满 ， 则 网 络 会 通知 发 送 方 
队列 满 (Queue Full) 信号 ， 发 送 方 只 能 原 地 等 待 ， 从 
而 产生 了 瓶颈 。 所 有 人 都 挤 进 同一 扇 门 ， 自 然 会 有 瓶 
颈 。 为 何不 放置 多 扇 门 呢 ? 另外 ， 能 不 能 把 SDRAM 放 
在 更 加 靠近 核心 的 位 置 ? 系统 架构 师 们 也 是 这 么 想 的 。 

2008 年 ，Intel 从 代号 Nehalem 架 构 的 CPU 系 列 开 
始 ， 对 整个 架构 进行 了 脱胎 换 骨 的 改造 ， 迈 出 了 很 大 
的 一 步 。 新 的 架构 基于 图 6-84 所 示 ， 但 是 取消 了 单独 
的 北桥 芯片 ， 也 就 是 将 接口 控制 器 、 路 由 控制 、5 口 
Crossbar 直 接 集成 在 了 CPU 芯片 内 部 ， 或 者 说 北桥 被 
集成 到 了 CPU 内 部 了 。 随 着 半导体 工艺 不 断 提升 ， 
单 颗 芯 片 内 部 可 以 集成 更 多 的 电路 ， 使 得 这 一 点 可 
以 做 到 ， 这 样 ， 只 需要 多 个 CPU 芯片 加 上 IO 桥 片 就 
可 以 搭建 起 一 台 基 本 的 计算 机 了 。 而 且 ， 最 关键 的 一 
个 变化 ， 是 把 SDRAM 控 制 器 【后 文 统一 简称 内 存 控 
= (Memory Controller, МС) 】 直 接 挂 接 到 了 片 内 
网 络 上 ， 每 个 CPU 片 内 有 一 个 MC 〈 也 可 以 有 多 个 ) ， 
Intel 称 之 为 集成 MC (integrated МС, iMC) 。 图 6-85 为 
一 个 由 4 个 CPU 芯片 组 成 计算 及 系统 架构 示意 图 。 

将 原来 集中 挂 接 在 片 外 网 络 上 的 MC 提升 到 片 内 
网 络 ， 与 L3 缓 存 控制 器 同 级 别 待遇 ， 显 然 降低 了 访问 
SDRAM 的 时 延 ， 再 加 上 SDRAM 自 身 的 运行 频率 越 


来 越 快 ， 也 有 诉求 被 挂 接 到 更 高 速 的 网 络 中 。 这 样 一 
来 ， 系 统 的 路 由 表 也 得 跟着 增加 对 应 的 设计 ，Ring 中 
的 每 个 站 上 的 接口 控制 器 都 有 一 个 系统 全 局 路 由 表 ， 
知晓 访问 任何 一 个 地 址 应 该 发 送 给 哪个 站 。 这 种 将 原 
本 集中 的 资源 分 散 存 放 在 多 个 地 方 的 做 法 ， 被 称 为 分 
布 式 思想 ， 对 应 的 系统 被 称 为 分 布 式 共享 内 存 系统 
(Distributed Share Memory, DSM) 。 

Intel 采 用 先 串 后 并 的 方式 〈 见 下 文 的 QPI 介 绍 ) 
作为 Crossbar 网 络 的 底层 传输 方式 ， 对 应 的 片 外 
互联 接口 控制 器 被 称 为 快速 路 径 互 连 (Quick Path 
Interconnection, ОРІ) ， 图 中 标识 为 Q。 每 个 Crossbar 
共有 5 个 端口 ， 其 中 一 个 连接 到 内 侧 的 QPI 控 制 器 上 ， 
另外 4 路 可 以 接 其 他 网 络 节点 。 如 果 是 4 个 CPU 互联 ， 
按照 图 示 拓 扑 互联 之 后 ， 每 个 Crossbar 还 剩 下 1 个 端 
口 ， 这 个 端口 可 以 用 于 连接 IO 桥 片 。 也 可 以 连接 多 个 
JIO 桥 ， 但 是 对 一 般 计 算 机 来 讲 ， 一 个 已 经 足够 用 了 。 

这 样 设计 之 后 ，CPU 核 心 发 出 的 访 存 请 求 的 目标 
地 址 如 果 恰 好 落 入 了 连接 在 与 自己 处 于 相同 Ring 的 那 
个 MC 后 面 挂 接 的 SDRAM 中 的 话 ， 那 么 访问 时 延 将 比 
较 低 ， 性 能 也 较 高 ， 相 反 ， 如 果 访 存 地 址 落 入 了 其 他 
CPU 芯片 内 的 MC， 那 么 该 请 求 会 被 路 由 到 本 地 的 QPI 
控制 器 ， 然 后 经 过 Crossbar 交 换 到 对 方 的 QPI 控 制 器 ， 
再 被 路 由 到 对 方 的 MC 上 执行 。 访 问 远 端的 内 存 需要 
跨 QPI 网 络 通信 ， 其 时 延 势必 很 大 ， 性 能 就 较 差 。 这 
里 要 理解 一 点 ， 内 存 虽 然 被 分 布 到 各 个 CPU 后 面 ， 但 
是 所 有 CPU 核心 依然 可 以 使 用 地 址 信号 直接 寻 址 ， 而 
并 不 关心 也 不 知道 它 所 访问 的 这 个 地 址 到 底 位 于 本 地 
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内 存 ， 还 是 其 他 CPU 后 面 的 内 存 ， 因 为 Ring 和 QPI 网 
络 中 的 每 个 节点 都 会 透明 地 路 由 每 条 访 存 请 求 。 

这 就 自然 会 产生 一 种 诉求 ， 如 果 进 程 1 在 CPU 1 
上 和 运行， 那么 内 存 管理 程序 如 果 能 够 将 进程 1 的 内 存 
物理 页 分 配 到 CPU 1 而 不 是 其 他 CPU 所 挂 接 的 SDRAM 
中 ， 这 样 就 可 以 人 为 地 提升 进程 运行 的 速度 了 。 的 
确 ， 现 在 的 主流 操作 系统 中 的 内 存 管理 程序 模块 就 可 
以 被 配置 为 这 种 策略 ， 当 然 ， 还 可 以 手动 灵活 调节 各 
种 其 他 策略 和 选项 。 

这 种 访问 本 地 RAM 快 于 远程 RAM 的 访 存 形式 ， 
被 称 为 非 一 致 性 内 存 访问 (None Uniform Memory 
Access, МОМА) 。 相 比 之 下 ,之 前 那 种 把 SDRAM 
控制 器 集中 挂 接 到 北桥 ， 所 有 节点 对 称 访问 的 做 法 ， 
则 被 称 为 一 致 性 内 存 访问 СОМА) ， 因 为 此 时 多 个 
CPU 访 问 SDRAM 的 距离 是 相等 的 ， 性 能 是 均匀 一 致 
的 。 但 是 ， 即 便 可 能 跨 QPI 网 络 访问 SDRAM， 也 并 不 
能 说 NUMA 架 构 的 性 能 就 比 北 桥 时 代 的 性 能 差 ， 因 为 
QPI 网 络 的 速度 和 时 延 相 比 北桥 时 代 还 是 有 天 壤 之 别 
的 ， 虽然 网 络 跳 数 增加 了 ， 但 是 也 得 综合 来 看 。 为 什 
么 不 继续 采用 集中 式 而 采用 高 速 网 络 来 连接 MC 呢 ? 
其 实 所 有 人 都 想 要 集中 式 ， 因 为 会 节省 系统 复杂 度 ， 
但 是 集中 式 意 味 着 所 有 CPU 都 要 连接 到 一 个 地 方 ， 访 
存 请 求 组 难免 要 通过 片 外 网 络 传递 ， 而 片 外 网 络 的 频 
率 上 不 去 ， 与 其 拖累 所 有 CPU， 不 如 让 每 个 CPU 至 少 
可 以 以 很 高 的 速率 访问 一 小 块 SDRAM， 等 访问 其 他 
区 域 时 再 去 跨 片 外 网 络 。 

图 6-47 中 所 示 的 架构 也 是 基于 图 6-85 的 架构 继续 
发 展 而 来 的 。 随 着 单 片 CPU 内 集成 的 核心 数量 越 来 越 
多 ， 单 个 Ring 也 不 能 串 接 太 多 站 点 了 ， 因 为 跳 数 太 多 
所 导致 时 延 不 可 接受 ， 所 以 图 6-47 中 采用 的 是 将 两 个 
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CPU 核心 ( 含 L1 及 L2 缓 存 ) 13 缓 存 控制 器 QPI 片 外 网 络 接口 控制 器 Crossbar 。” SDRAM 内 存 控制 器 
图 6-85 ”当前 最 新 的 主流 多 CPU 互联 架构 


小 Ring 通 过 高 速 接口 黏合 起 来 的 做 法 ， 可 以 看 到 ， 如 
果 跨 Ring 访 问 L3 缓 存 或 者 SDRAM， 时 延 都 会 有 所 增 
加 ， 但 是 Ring 毕 竟 是 高 速 网 络 ， 时 延 不 会 增加 太 多 。 
而 QPI 就 不 同 了 ， 一 旦 跨越 QPI， 就 意味 着 从 一 个 Ring 
先 到 QPI， 再 从 QPI 到 另 一 个 Ring， 时 延 就 会 大 增 。 

NUMA 架 构 目前 已 被 包括 Intel 在 内 的 主流 CPU 厂商 
广泛 采用 。 另 外 ， 从 图 6-47 中 可 以 看 到 ， 原 本 位 于 南 桥 
中 的 PCIE VO 控制 器 也 被 提升 到 了 片 内 Ring 网 络 中 。 其 
实 PCIE 控 制 器 一 度 先是 被 提升 到 了 直 连 北桥 的 前 端 总 
线 ， 北 桥 被 取消 后 则 顺理成章 地 连 入 到 内 部 Ring 了 。 


世界 上 第 一 台 支 持 缓存 一 致 性 的 NUMA 

(сеМОМА ) 系统 是 在 上 20 纪 80 年 代 后 期 推出 的 

Stanford DASH 计 算 机 系统 ， 最 高 支持 到 64 个 CPU 互 
相连 接 。 


6.4.2.4 AMD Opteron 北 桥 


图 6-86 左 图 为 AMD Opteron 平 台 的 CPU 架构 示意 
图 ， 北 桥 被 集成 到 了 CPU 芯片 内 部 。 其 北桥 部 分 的 核 
心 是 一 个 Crossbar， 连 接 了 4 种 器 件 : SRQ (System 
Request Queue， 实 际 上 是 一 堆 队列 ， 比 如 L/S 队列 
等 ) 、 主 存 控 制 器 (Memory Controller, MCT) 、 
DRAM 控 制 器 (DRAM Controller，DCT， 也 就 是 
SDRAM 内 存 条 上 的 控制 器 ) 以 及 3 个 HT (Hyper 
Transport) 片 外 访 存 网 络 接口 控制 器 。 

该 系统 为 一 个 典型 的 DSM、NUMA 系 统 。 右 图 为 
多 颗 CPU 芯 片 借 由 HT 链 路 互联 组 成 的 NUMA 结 构 。 
图 6-87 为 CPU 内 部 北桥 部 分 的 细节 结构 以 及 控制 指令 
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图 6-87 AMD Opteron 800 芯 片 北桥 细节 架构 及 控制 流 示意 图 


的 流 示意 图 。 两 个 CPU 核心 (CPU 0/1) LLC 下 行 的 
各 种 输出 请 求 队列 连接 到 一 个 复 用 器 ， 然 后 转发 到 
SRQ，SRQ 会 在 保证 请 求 消息 时 序 的 基础 上 ， 通 过 查 
询 MAP 和 GART 地 址 映射 表 ， 从 而 获知 针对 某 地 址 的 
请 求 消息 到 底 应 该 从 哪个 输出 端口 转发 出 去 。MAP 
和 GART 表 描述 了 整个 地 址 空间 的 映射 情况 ， 包 括 IO 
设备 控制 器 寄存 器 所 占用 的 地 址 空间 、SDRAM 空 间 
(NUMA 架 构 下 的 RAM 空 间 还 要 再 分 ， 记 录 哪 一 段 
地 址 要 从 哪个 HI 端口 路 由 到 对 端 CPU) 、 显 卡 显存 的 
映射 空间 〈 由 GART 表 记录 ) 等 。 
SRQ 与 HT 输入 端 、 访 存 请 求 输入 端 都 作为 
Crossbar 的 输入 ; 同时， 该 Crossbar 的 输出 也 各 自 有 


一 路 反馈 到 SRQ 上 方 的 复 用 器 输入 端 以 及 MCT 的 
MCQ (Memory Command Queue) 的 输入 端 。 比 如 该 
Crossbar (XBAR) 的 一 路 HT 输入 端 可 能 连接 到 另 一 
个 CPU 芯片 的 HT 输出 端 ， 对 方 CPU 的 访 存 地 址 落 入 在 
本 CPU， 那 么 该 条 访 存 消息 便 会 输入 到 本 地 XBAR 的 
输入 端 ， 然 后 输出 到 MCT 的 输入 端 ， 从 而 进入 MCQ 
模块 进行 访 存 处 理 。 当 然 ， 还 需要 做 缓存 一 致 性 处 理 
(图 中 的 Probe/Snoop 等 流量 ) ， 所 以 MCT 会 发 送 对 
应 的 Probe 消 息 给 本 地 CPU 核心 或 者 本 NUMA 域 中 的 
其 他 CPU 处 理 。 

图 6-88 为 北桥 部 分 的 数据 通路 架构 示意 图 。 

消息 请 求 存 在 多 种 类 别 ， 比 如 普通 Request、 
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图 6-88 AMD Opteron 800 芯 片 北 桥 数 据 流 示意 图 


Posted Request (下游 部 件 收 到 消息 后 在 继续 转发 给 
目标 之 前 率先 返回 给 上 游 部 件 成 功 信 号 ， 然 后 继续 转 
发 ， 相 当 于 异步 消息 ) 、Probe 探 询 消息 以 及 应 答 消 
息 等 。XBAR 的 每 个 输入 端口 处 都 有 不 同 深度 的 队列 
缓存 ， 针 对 上 述 不 同类 别 的 消息 ， 所 分 配 的 队列 条 目 
数量 也 不 同 (或 者 为 每 种 类 别 的 消息 设置 独立 的 队 
列 ， 用 复 用 器 来 控制 对 高 优先 级 队列 仲裁 命中 比例 
大 ， 视 不 同 设计 而 定 ) ， 因 为 每 种 消息 所 要 求 的 优先 
级 、 时 延 不 同 。 这 样 做 相当 于 给 每 种 消息 制定 了 QoS 
(Quality of Service) ， 从 而 在 一 个 公用 的 物理 缓存 
/队列 中 形成 了 对 应 数量 的 虚拟 队列 ， 相 当 于 把 一 条 
很 宽 的 大 道 分 割 成 多 条 道 ， 有 1 米 宽 的 ， 有 2 米 宽 的 ， 
还 有 更 宽 的 ， 每 种 消息 占用 对 应 的 道 ， 这 便 形成 了 所 
谓 虚 拟 通道 (Virtual Channel) ， 或 者 虚拟 输出 队列 
(Virtual Output Queue, VOQ) 。 在 下 文中 的 Intel 所 
采用 的 QPI 网 络 中 ， 也 使 用 了 虚拟 通道 。 虚 拟 通 道 思 
想 在 几乎 所 有 的 交换 式 网 络 中 都 有 用 到 。 


6.4.3 参 司 全 局 共享 内 存 架 构 


现在 开始 思考 一 个 问题 : 如 果 把 片 外 网 络 更 换 
为 以 太 网 ，QPI 控 制 器 换 为 以 太 网 卡 ，QPI Crossbar 
Switch 换 为 以 太 网 交换 机 ， 是 不 是 也 可 以 传输 访 存 请 
求 ， 把 所 有 SDRAM 纳 入 统一 的 地 址 空间 透明 寻 址 呢 ? 
理论 上 完全 没有 问题 。 但 是 以 太 网 的 速率 和 时 延 都 不 
理想 ， 用 于 支撑 访 存 网 络 的 话 ， 整 体 性 能 会 很 差 。 相 
比 之 下 ， 用 PCIE 网 络 支撑 访 存 的 话 就 是 可 以 接受 的 。 
关于 PCIE 网 络 的 详细 介绍 ， 请 参考 本 书 第 7 章 。 


另外 ， 请 再 次 深刻 理解 什么 是 “共享 内 存 ” 架 
构 。 共 享 内 存 ， 就 是 指 通过 各 种 网 络 /总 线 方式 连接 到 
一 起 的 CPU 和 SDRAM， 这 个 网 络 中 的 所 有 的 SDRAM 
和 连接 到 I/O 桥 上 的 设备 控制 器 寄存 器 共同 组 成 一 个 
全 局 统一 的 地 址 空间 ， 即 便 SDRAM 可 能 并 不 是 集中 
挂 接 到 某 单个 MC 后 面 ， 而 是 分 布 式 地 挂 接 到 多 个 MC 
中 ， 那 么 它们 也 会 各 自 被 映射 到 全 局 地 址 空间 中 的 某 
块 。 另 外 ， 所 有 的 CPU 都 可 以 发 出 任意 地 址 信号 ， 但 
是 所 有 的 CPU 共享 这 个 地 址 空间 ， 发 出 同一 个 地 址 请 
求 的 CPU 会 得 到 同一 份 数据 。 而 如 果 是 非 共享 内 存 架 
构 ， 那 么 这 个 网 络 所 连接 的 CPU+SDRAM 就 不 是 一 台 
单独 的 计算 机 ， 而 是 多 台 计 算 机 。 共 享 内 存 架 构 是 属 
于 紧 耦 合 ， 非 共享 内 存 系统 就 是 松 耦 合 了 。 


使 用 “共享 地 址 空间 ”这 个 词 更 加 精准 。 在 
NUMA 架 构 中 ， 所 有 的 CPU 核 心 不 仅 仅 共 享 访问 
SDRAM， 还 共享 访问 BIOS ROM、1/O 控 制 器 寄存 
器 等 这 些 同样 位 于 同一 个 地 址 空间 中 的 存储 器 。 


如 果 将 图 6-85 所 示 的 QPI 网 络 的 CPU 之 间 的 互联 
线 断 开 的 话 ， 那 就 会 将 其 分 割 成 4 份 ， 也 就 是 每 个 
CPU 及 其 自 带 的 SDRAM (假设 为 1GB 容 量 ) 都 各 自 
形成 一 台独 立 的 计算 机 系统 ， 那 么 将 会 有 4 个 独立 的 
地 址 空间 。 每 个 地 址 空间 中 有 1GB 的 SDRAM 以 及 车 
干 的 外 部 I/O 设 备 寄 存 器 。 如 果 其 中 多 个 CPU 发 出 同 
一 个 访 存 地 址 请 求 ， 那 么 会 被 路 由 到 各 自 的 地 址 空间 
中 某 处 ， 得 到 不 同 的 数据 ， 因 为 这 是 4 台独 立 的 计算 
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机 。 如 果 被 分 成 了 多 台独 立 的 计算 机 ， 那 么 就 需要 多 
套 独立 的 系统 底层 程序 分 别 运行 在 每 台 计算 机 中 。 

另 一 个 地 方 值得 一 提 。 假 设 CPU 有 32 位 地 址 信 
号 ， 可 寻 址 最 大 4G 个 地 址 ， 但 是 SDRAM 只 有 1GB， 
如 果 CPU 发 出 11111111111111111111111111111111 (第 
4G 字 节 ， 从 1 开始 ) 这 个 访 存 地 址 怎么 办 呢 ? 要 知 
道 ，BIOS 程 序 可 以 将 SDRAM 这 1GB 的 空间 映射 到 全 
局 地 址 空间 中 任何 一 处 ， 也 就 是 BIOS 会 向 北桥 或 者 
各 个 Ring 站 点 的 路 由 表 中 写 入 一 条 记录 ， 比 如 : 凡 
是 访问 基地 址 3GB 之 后 的 长 度 1GB 的 地 址 空间 的 请 求 
一 律 路 由 到 Ring ID=2 的 站 点 上 《使 用 Ring 时 ) 或 者 
Mux/Demux 控 制 信号 为 0010 的 Crossbar 端 口上 使 用 
Crossbar 时 ) 。Ring ID 是 被 定 死 的 ，BIOS 可 以 从 Ring 
站 点 的 控制 寄存 器 〈 被 映射 到 全 局 地 址 空间 的 默认 位 
置 ) 中 读 出 每 个 站 点 的 描述 信息 ， 包 括 各 自 ID 及 其 设 
备 类 型 ， 也 就 是 知道 了 MC 的 ID 是 多 少 。 经 过 上 述 做 
法 ， 就 成 功 地 将 SDRAM 的 这 1GB 的 空间 映射 到 了 4G 
全 局 可 寻 址 地 址 空间 中 的 最 后 1GB。 做 完 这 个 映射 之 
后 ，BIOS 必 须 将 这 些 映 射 关系 写 入 到 系统 描述 表 中 
( 即 包含 设备 信息 、 地 址 信息 等 各 种 描述 的 那 张 表 ， 
上 一 章 中 介绍 过 ) ， 这 样 ， 内 存 管理 程序 通过 读 取 这 
张 表 就 可 以 充分 知晓 存储 器 的 布局 ， 然 后 分 配对 应 的 
物理 地 址 给 程序 使 用 了 。 

然而 ， 在 系统 硬件 底层 其 实 还 有 一 层 透明 的 映 
射 存在 。 对 于 存在 多 个 MC 的 系统 ， 为 了 将 访问 均衡 
到 所 有 MC 下 的 多 个 SDRAM 中 ， 底 层 可 以 再 次 将 连 
续 的 空间 以 缓存 行 尺寸 为 粒度 做 重新 分 散 ， 比 如 采用 
Roung Robin 轮 流 方式 放置 到 多 个 MC 下 的 SDRAM 空 
间 (图 6-89 左 图 所 示 ) ， 甚 至 如 果 考 虑 同一 个 MC 后 
面 的 不 同 控制 通道 ， 可 以 在 通道 之 间 均 衡 放置 (图 
6-89 右 图 所 示 ) 。 但 是 ， 这 种 分 散 操作 对 上 层 是 透明 
的 ， 内 存 管理 程序 感知 不 到 这 种 分 散 ，BIOS 可 以 向 访 
存 网 络 中 所 有 Crossbar/Ring 站 点 上 的 专门 控制 分 散 策 
略 的 寄存 器 写 入 对 应 的 控制 码 来 告诉 底层 硬件 如 何 做 
分 散 ， 或 者 不 分 散 。 网 络 节点 根据 这 个 寄存 器 所 表示 
的 策略 ， 控 制 对 每 一 条 访 存 请 求 的 转发 目的 。 相 应 的 
MC 控制 器 中 的 寄存 器 也 需要 被 精确 地 配置 ， 以 实现 对 
应 的 路 由 策略 。 这 种 底层 的 透明 分 散 过 程 被 称 为 交织 
(interleaving) 。 所 以 ， 即 便 是 内 存 管理 程序 ， 看 到 的 
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图 6-89 ”底层 硬件 级 的 再 次 透明 重 映射 


也 并 非 是 最 终 的 布局 。 如 果 决 定 使 用 交织 ， 则 要 注意 
一 点 ， 那 就 是 操作 系统 中 的 内 存 管 理 程序 针对 NUMA 
的 优化 效果 可 能 会 被 抵消 掉 ， 因 为 内 存 管理 程序 将 无 
法 感知 和 控制 哪个 地 址 放 在 了 哪个 CPU 内 部 的 MC。 


在 现代 的 企业 级 计算 机 (服务 器 ) 的 BIOS 中 普 
遍 提供 两 个 选项 : 启用 NUMA 和 禁用 NUMA。 当 被 
配置 为 启用 NUMA 时 ，BIOS 完 成 初始 化 后 会 在 内 
存 中 留 下 一 个 表格 来 描述 当前 系统 的 NUMA 节 点 、 
节点 间 的 距离 等 NUMA 拓 扑 信息 ， 操 作 系统 的 内 存 
管理 模块 会 根据 这 个 信息 来 做 相应 的 优化 算法 ， 比 
如 某 个 程序 运行 在 某 个 核心 上 ， 那 么 就 优先 给 该 程 
序 分 配 与 该 核心 距离 最 近 的 内 存 空间 从 而 保证 该 程 
序 访 存 时 的 性 能 ， 同 时 操作 系统 一 般 还 提供 了 一 些 
配置 参数 供用 户 手 动 控 制 与 NUMA 相 关 的 策略 。 而 
如 果 在 BIOS 中 禁用 了 NUMA 模 式 ， 那 么 BIOS 就 不 
会 向 操作 系统 展示 NUMA 拓 扑 ， 此 时 操作 系统 根本 
不 知道 底层 的 NUMA 布 局 ， 那 么 操作 系统 就 会 认为 
该 系统 仍然 是 一 个 UMA/SMP 系 统 ， 在 分 配 内 存 的 
时 候 也 就 不 会 做 什么 优化 ， 也 没 法 优化 。 此 时 就 可 
能 导致 操作 系统 顺序 地 分 配 内 存 ， 可 能 发 生 大 量 线 
程 的 内 存 都 被 挤 在 某 个 或 者 某 几 个 SDRAM 内 存 条 
上 ， 导 致 访问 瓶颈 ， 谁 让 你 不 把 底层 的 拓扑 信息 告 
诉 操作 系统 呢 ? 既然 操 作 系 统 认为 分 配 到 哪 段 内 存 
空间 并 不 影响 访问 性 能 ， 那 就 怪不得 操作 系统 了 。 
正 因 如 此 才 有 了 上 文 所 述 的 底层 硬件 自动 将 地 址 空 
间 交 织 地 映射 到 系统 中 所 有 物理 内 存 条 上 ，BIOS 在 
禁用 NUMA 模 式 的 同时 会 开启 底层 交织 模式 ， 此 时 
即便 操作 系统 顺序 分 配 内 存 ， 底 层 也 可 以 一 定 在 程 
度 上 缓解 瓶颈 。 


基于 上 述 的 物理 地 址 映射 ， 如 果 再 让 CPU 运行 在 
保护 模式 下 ， 那 么 情况 又 变 了 。 采 用 虚拟 地 址 的 话 ， 
CPU 发 出 的 访 存 地 址 还 是 这 32 个 1， 该 地 址 为 虚拟 地 
址 ， 但 此 时 访问 的 真 不 一 定 就 是 SDRAM 中 最 后 那个 
字 节 了 ， 因 为 内 存 管理 程序 可 能 会 将 这 个 虚拟 地 址 所 
在 的 虚拟 页 面 映射 到 任意 一 个 物理 页 面 中 ， 或 者 该 地 
址 指向 的 是 LO 设备 控制 器 寄存 器 所 在 的 地 址 。 咱 们 


全 局 地 址 空间 


假设 该 地 址 落 入 的 是 SDRAM， 那 么 该 物理 页 面 所 在 
的 物理 地 址 ， 就 一 定 会 落 入 SDRAM 的 这 1GB 之 内 所 
在 的 某 个 物理 地 址 段 ， 而 SDRAM 又 被 映射 到 了 物理 
地 址 空间 的 3GB 一 4GB 这 个 区 间 ， 那 么 该 访 存 请 求 进 
入 MMU 查 找 后 ， 输 出 的 物理 地 址 也 一 定 会 落 入 3GB 
一 4GB 区 段 内 。 

这 里 的 关键 是 要 深刻 理解 ， 一 个 地 址 是 要 经 过 两 
次 映射 的 ;第 一 次 是 被 BIOS 做 硬件 路 由 表 重 新 映射 ， 
内 存 管 理 程序 必须 知道 这 个 映射 关系 ; 第 二 次 映射 是 
保护 模式 下 的 内 存 管 理 程序 利用 页 表 ， 将 物理 地 址 映 
射 成 虚拟 地 址 ， 或 者 说 将 虚拟 地 址 映射 成 物理 地 址 。 

巩固 理解 一 下 ， 程 序 是 如 何 让 CPU 发 出 虚拟 地 
址 的 呢 ? 因为 程序 在 被 编译 的 时 候 ， 就 把 虚拟 地 址 
编译 进去 了 ， 在 链接 的 时 候 再 重新 修正 内 部 的 一 些 
绝对 地 址 引用 ， 修 正 完 后 还 是 虚拟 地 址 。 程 序 内 部 
调用 mallocO 分 配 地 址 时 返回 的 指针 也 是 虚拟 地 址 。 
然后 ， 假 设 加 载 器 (loader) 将 该 程序 代码 整体 载 入 
到 虚拟 地 址 A 处 ， 那 么 加 载 器 还 需要 负责 对 程序 进行 
基地 址 重 定向 (Rebasing) 这 一 步 操作 ， 将 所 有 绝对 
地 址 引用 全 部 与 A 相 加 修正 。 再 后 ， 加 载 器 采用 Jmp 
指令 让 CPU 跳 转 到 程序 的 入 口 点 ，CPU 的 取 指 令 单 元 
(PC 指针 ) 便 发 出 该 入 口 点 地 址 (虚拟 地 址 )。 由 
于 该 程序 对 应 的 页 表 已 经 预先 被 加 载 器 创建 好 并 分 配 
了 物理 地 址 ， 则 MMU 通 过 查询 页 表 找 到 该 虚拟 地 址 
对 应 的 物理 地 址 ， 然 后 查找 缓存 、 访 问 SDRAM， 进 
行 取 指令 操作 。 这 就 是 完整 的 从 程序 的 编译 到 载 入 运 
行 ， 再 到 地 址 转换 的 大 致 过 程 。 

如 果 SDRAM 不 够 用 了 ， 虚 拟 内 存 管理 程序 还 可 
以 将 不 常用 的 页 面 移 动 到 硬盘 上 ， 腾 出 空间 。 所 以 ， 
CPU 可 寻 址 的 地 址 空间 的 大 小 与 SDRAM 的 大 小 并 没 
有 直接 关系 。 


6.4.4 ” 访 存 网 络 的 硬 分 区 


目前 ， 基 于 Power 或 者 Intel 的 高 端 CPU 平 台 ， 司 
以 将 高 达 32/64 个 CPU 互 联 成 一 个 单一 地 址 空间 。 截 至 
当前 ，AMD 的 Naples 平 台 CPU 已 经 可 以 做 到 单 芯片 32 
核心 /64 个 SMT 超 线程 ，Intel 同 时 代 的 CPU 也 已 经 可 以 
达到 22 核 心 。 这 样 ， 在 一 个 独立 的 计算 机 中 就 会 拥有 
超过 一 千 个 核心 ， 算 上 超 线 程 ， 那 就 是 两 千 多 个 逻辑 
核心 。 这 个 计算 机 的 规模 过 大 了 。 于 是 人 们 就 产生 了 
一 种 想法 ， 能 否 将 这 台大 计算 机 分 割 成 多 台风 辑 上 的 
小 计算 机 。 

一 台 计 算 机 包含 三 大 件 : CPU, SDRAM, ГО 
桥 ， 只 要 将 这 三 大 件 隔 离 起 来 让 其 中 的 CPU 发 出 的 访 
存 请 求 逃 不 开 这 个 空间 ， 就 可 以 了 。 所 以 ， 可 以 在 访 
存 网 络 上 下 功夫 ， 实 现 这 种 隔离 。 比 如 ， 对 于 图 6-85 
来 讲 ， 其 原本 是 由 4 个 CPU 组 成 的 一 台 计 算 机 ， 现 在 
想 将 其 分 割 为 每 台 只 包含 1 个 CPU 的 4 台 计算 机 ， 那 么 
只 需要 将 中 间 的 QPI 互 联网 络 断 开 即 可 。 具 体 方式 是 
通过 向 QPI Crossbar 的 控制 寄存 器 中 写 入 对 应 的 控制 
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码 ， 禁 止 其 与 其 他 Crossbar 连 接 ， 串 行 通信 链 路 在 初 
始 化 过 程 中 需要 进行 链 路 协商 ， 比 如 匹配 各 自 的 速 
率 、 信 号 相位 的 检测 与 微调 等 ， 只 要 控制 它们 不 进行 
协商 即 可 。 这 种 将 一 个 大 网 络 隔离 成 多 个 小 网 络 的 思 
路 被 称 为 分 区 (partition 或 zone) 。 

图 6-90 为 一 个 由 8 个 CPU 组 成 的 访 存 网 络 ， 每 个 
Crossbar 有 4 个 端口 。 为 了 降低 该 网 络 的 直径 (这 个 
概念 详 见 前 文 ) ， 采 用 图 示 的 组 网 拓扑 可 以 保证 直径 
为 2， 同 时 还 可 以 连接 一 个 IO 桥 。 现 在 想 要 把 这 个 网 
络 切 成 4 份 ， 形 成 4 台独 立 的 计算 机 ， 将 图 中 相同 颜色 
的 节点 组 成 一 个 独立 系统 。 可 以 发 现 ， 其 实 不 能 够 简 
单 地 将 某 条 链 路 切断 而 获得 4 个 分 区 。 这 就 像 小 学 的 
“下 列 图 形 最 少 切 几 刀 可 以 得 到 ”的 几何 题 一 样 ， 
对 于 该 题 ， 无 解 ， 因 为 需要 跨 Crossbar 创 建 分 区 。 此 
时 ， 需 要 另外 一 种 机 制 ， 即 在 访 存 请 求 中 引入 一 个 
新 字段 : Zone ID / Partition ID， 让 每 一 级 Crossbar 知 
道 该 请 求 到 底 是 发 送 给 哪个 分 区 的 ， 而 且 还 需要 在 每 
一 级 Crossbar 的 路 由 表 中 增加 分 区 路 由 信息 ， 也 就 是 
记录 “去 哪个 分 区 的 流量 要 从 哪个 端口 发 出 去 ”， 而 
不 能 仅仅 是 根据 访 存 地 址 来 路 由 ， 因 为 不 同 分 区 中 的 
CPU 发 出 的 地 址 可 能 是 相同 的 ， 但 是 这 些 地 址 不 在 同 
一 个 地 址 空间 中 ， 所 以 一 定 不 能 被 统一 路 由 ， 而 辅 
之 以 Zone ID 就 可 以 区 分 了 。Zone ID 需要 被 预先 根据 
分 区 拓扑 情况 配置 到 每 个 Crossbar 的 相应 控制 寄存 器 
中 。 某 个 分 区 中 的 CPU 发 出 的 访 存 请 求 并 不 携带 Zone 
ID 字段 ， 但 是 请 求 到 了 Crossbar 之 后 ， 会 被 自动 加 入 
Zone ID 字段 而 后 放 到 网 络 上 路 由 。 当 某 个 Crossbar 收 
到 某 个 访 存 请 求 时， 根据 Zone ID 来 判断 该 请 求 是 发 
送 给 自身 的 还 是 给 别人 的 ， 根 据 分 区 路 由 表 选 择 下 一 
跳 的 端口 转发 出 去 。IL/O 桥 也 需要 支持 分 区 路 由 ， 从 
而 将 不 同 分 区 的 访 存 请 求 路 由 到 不 同 的 设备 控制 器 上 
去 ， 这 样 就 可 以 将 连接 到 同一 个 IO 桥 上 的 不 同 设备 
任意 灵活 映射 到 任意 分 区 中 了 。 


图 6-90” 跨 Crossbar 任 意 分 区 


那么 ， 分 区 应 该 如 何 配置 呢 ? 可 以 明显 体会 到 的 
是 ， 不 能 在 BIOS 中 配置 分 区 ， 因 为 BIOS 的 代码 是 靠 
CPU 运行 的 ， 分 区 配置 好 之 前 CPU 是 不 能 载 入 代码 运 
行 的 ， 此 时 Crossbar 还 不 知道 分 区 路 由 信息 ， 多 个 分 
区 的 不 同 CPU 会 发 出 相同 地 址 的 访 存 请 求 ， 导 致 地 址 
错乱 。 所 以 ， 需 要 存在 另外 一 个 先 于 BIOS 发 挥 作用 的 
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角色 。 人 们 想 出 一 些 办 法 ， 比 如 直接 在 电路 板 上 增加 
一 些 手动 开关 ， 直 接 让 用 户 通过 搬 动 这 些 开关 到 不 同 
的 状态 来 输入 Zone ID。 

在 早期 ， 很 多 参数 都 是 通过 这 种 办 法 输入 到 电路 
中 去 的 ， 包 括 有 些 IO 总 线 上 的 节点 地 址 ID， 都 要 用 
跳 线 帽 来 短 接 对 应 的 阵脚 ， 从 而 让 电路 区 分 不 同 的 设 
备 。 图 6-91 为 早期 主板 上 用 于 配置 这 些 参 数 的 开关 。 
这 些 开关 对 应 的 电路 会 直接 输入 到 目标 模块 中 ， 目 标 
硬件 模块 每 次 加 电 之 后 ， 直 接 从 这 些 输 入 开关 获取 其 
所 表示 的 0/1 信 号 ， 将 其 直接 锁 存 到 内 部 的 寄存 器 中 。 
这 样 ， 其 效果 就 类 似 于 将 这 些 寄存 器 映射 到 系统 全 局 
地 址 空间 ， 访 存 网 络 中 配 好 路 由 信息 ， 然 后 用 机 器 指 
令 的 方式 操纵 CPU 来 写 入 ID 到 这 些 寄存 器 。 


输入 开关 及 跳 线 


图 6-91 


这 种 操作 非常 笨拙 ， 人 们 总 是 不 断 追 求 更 方便 的 

方式 。 于 是 人 们 想 出 了 另外 一 种 方式 ， 用 另 一 台 计算 
机 运行 某 个 程序 ， 该 计算 机 一 方面 负责 通过 网 页 等 方 
式 与 用 户 交互 〈 当 然 ， 用 户 也 需要 在 用 一 台 计算 机 打 
开 浏 览 器 来 访问 这 台 计 算 机 的 网 页 ) ， 另 一 方面 则 与 
需要 被 配置 的 硬件 电路 对 接 ， 对 接 方 式 可 以 的 通过 i2c 
等 串 行 接口 ， 从 而 将 用 户 发 送 过 来 的 配置 请 求 转换 为 
在 i2c 总 线 上 传递 的 信息 ， 发 送 给 目标 电路 ;目标 电路 
从 i2c 总 线 上 接收 这 些 配置 信息 ， 然 后 配置 到 自己 的 寄 
存 器 中 ， 完 成 分 区 或 者 各 种 其 他 操作 。 由 于 这 台 计算 
机 需要 用 i2c 与 待 配置 的 电路 模块 相连 ， 所 以 它 的 实际 
形态 是 一 个 片上 系统 (System on Chip, SoC) ， 在 单 
一 芯片 中 集成 了 CPU、SDRAM、i2c 接 口 控制 器 、 以 
太 网 控制 。 该 芯片 本 身 就 是 一 台 小 计算 机 ， 与 它 要 配 
置 的 那 台 大 计算 机 放 在 同一 张 主板 上 ， 其 内 部 运行 着 
程序 ， 包 括 底层 的 支撑 程序 《操作 系统 、 各 种 控制 器 
驱动 程序 ) 、Web 网 页 服务 端 程序 、 后 端 向 ic 总 线 发 
送 配置 信息 的 程序 等 。Web 服 务 程序 通过 以 太 网 接收 
目 户 通过 网 页 访问 方式 发 来 的 配置 请 求 。 经 过 这 样 的 
设计 ， 用 户 再 也 不 用 去 打开 机 箱 ， 按 照 说 明 手 册 搬 动 
开关 去 向 电路 输入 参数 了 。 
这 个 专门 用 于 对 计算 机 做 更 底层 的 配置 或 者 监控 
的 片上 小 计算 机 ， 被 称 为 基板 管理 控制 器 (Baseboard 
Management Controller, BMC) 。 图 6-92 为 当前 比较 
流行 的 BMC 芯 片 ， 可 以 看 到 其 下 方 的 一 片 1GB 容 量 的 
SDRAM， 是 供 BMC 运 行使 用 的 内 存 。 

当前 的 高 端 服 务 器 计算 机 全 都 使 用 BMC 来 做 基本 
配置 和 监控 ， 其 不 仅仅 是 配置 这 些 初 始 参 数 ， 还 可 以 直 
接 对 计算 机 机 箱 内 的 其 他 模块 (比如 风扇 、 电 源 等 ) 做 
控制 和 监控 。 只 要 系统 电源 有 达标 的 电压 输入 ，BMC 


芯片 就 自动 启动 ， 但 是 此 时 主 计算 机 尚未 被 加 电 ， 可 
以 在 BMC 提 供 的 网 页 中 控制 对 主 计算 机 加 电 启动 ， 或 
者 强行 断 电 关机 。 分 区 做 好 之 后 ， 分 区 内 的 CPU 开 始 
运行 BIOS 代 码 ， 所 以 需要 给 每 个 分 区 准备 一 个 BIOS， 
或 者 把 同一 片 BIOS ROM 同 时 分 配 到 所 有 分 区 中 ， 因 为 
BIOS 是 只 读 的 ， 所 以 不 会 产生 一 致 性 问题 。 有 些 高 端的 
计算 机 甚至 提供 了 多 个 BIOS ROM 芯 片 作为 备份 。 


6-92 BMC 控制 器 


如 果 做 了 多 个 分 区 ， 则 可 以 有 选择 地 对 某 个 分 区 
加 电 启 动 ， 而 其 他 分 区 不 加 电 。 这 就 要 求 对 供电 部 分 
进行 重新 设计 ， 达 到 可 以 单独 对 任何 一 颗 CPU 供 电 。 
不 仅 如 此 ， 由 于 有 些 分 区 是 跨 Crossbar 的 ， 其 路 径 上 
的 所 有 Crossbar 都 需要 加 电 ， 而 这 些 Crossbar 目 前 又 都 
是 被 做 到 CPU 内 部 的 ， 这 就 意味 着 路 径 上 所 有 CPU 都 
要 被 加 电 ， 即 便 某 个 CPU 并 不 属于 该 分 区 ， 所 以 还 需 
要 特殊 设计 ， 只 对 CPU 内 部 的 Crossbar 供 电 。 但 是 ， 几 
平 没有 产品 能 做 到 任意 灵活 分 区 ， 都 是 有 所 取舍 的 。 


上 面 提 到 过 ， 使 用 BMC 的 计算 机 多 为 微型 计算 
机 (包括 个 人 电脑 、 普 通 服 务 器 ) 。 对 于 小 型 机 、 
大 型 机 、 超 级 计算 机 来 讲 ， 一 般 不 会 使 用 BMC 来 做 
初始 底层 控制 管理 ， 因 为 这 三 种 机 器 并 非 只 由 一 个 
机 箱 组 成 ， 而 可 能 会 由 数 个 、 十 几 个 或 者 数 百 数 千 
个 机 箱 组 成 ， 此 时 会 使 用 一 台 单 独 的 微型 计算 机 来 
充当 底层 管理 控制 器 。 比 如 IBM 小 型 机 的 管理 控制 
器 被 称 为 HMC ( Host Management Controller, Host 
指 的 是 主 计 算 机 ) ; 有 些 超级 计算 机 系统 里 的 管理 
控制 器 被 称 为 Service Node 或 者 Service Console。 在 
这 些 场 景 下 ， 管 理 控制 器 做 的 工作 就 更 复杂 了 ， 比 
如 Service Node 要 同时 管理 数 以 千 计 的 计算 节点 ， 
给 这 些 节点 提供 精简 的 操作 系统 程序 ， 让 它们 通过 
网 络 来 启动 操作 系统 等 。 关 于 超级 计算 机 ， 本 书后 
面 的 章节 会 做 详细 介绍 。 


6.5 QPI 片 间 互 联网 络 简介 


QPI (Quick Path Interconnection) 是 Intel 的 高 端 


CPU 采用 的 片 间 互 联网 络 的 名 称 ， 其 经 历 了 多 个 版 本 
的 演进 ， 速 率 不 断 提升 。 截 至 当前 ， 已 改名 为 UPI。 


6.5.1 QPI 物 理 层 与 同步 异步 通信 原理 


截止 书写 作 时 ，QPI 的 最 大 运行 时 钟 频率 为 
3.2GHz， 因 为 采用 DDR 技 术 ， 所 以 最 终 频率 为 双 售 
速 ， 也 就 是 6.4GHz。QPI 采 用 20 位 并 行 线路 传送 ， 这 
样 每 条 链 路 带宽 就 是 20X 6.4=16GB/s。 如 果 将 这 样 两 
条 链 路 捆绑 一 下 ， 就 可 以 得 到 一 个 单 向 32GB/s 的 逻辑 
链 路 ， 两 个 节点 之 间 采 用 一 收 一 发 两 条 单 向 逻辑 链 路 
( 共 4 条 物理 链 路 ) 组 成 一 个 QPI 端 口 。 另 外 ， 每 条 物 
理 链 路 需要 跟着 一 条 单独 的 导线 ， 这 条 线 就 相当 于 手 
表 ， 很 重要 ， 因 为 通信 双方 的 两 个 节点 必须 保持 时 钟 
信和 号 的 步调 一 致 ， 才 可 以 收发 数据 。 图 6-93 为 QPI 的 
物理 层 示意 图 。 

通信 双方 的 时 钟 步 调 必须 严格 一 致 ， 这 里 的 “ 步 
调 ” 不 仅仅 是 指 双方 的 时 钟 频率 必须 相同 ， 更 需要 相 
位 一 致 ， 频 率 相 同 可 能 相位 不 一 致 ， 一 方 总 比 另 一 方 
慢 半 拍 的 话 ， 那 链 路 就 连 不 通 。 我 们 做 个 类 比 ， 理 解 
这 一 点 就 比较 容易 了 。 比 如 我 和 你 隔 得 很 远 ， 互 相 看 
不 见 也 听 不 到 对 方 说 什么 ， 彼 此 间 只 能 用 手 拉 着 一 根 
绳子 ， 以 此 来 互 传 信号 。 通 信 开 始 之 前 ， 我 们 对 了 下 
时 间 ， 约 定好 在 10 点 钟 准时 开始 通信 ， 你 发 信号 ， 我 
收 信号 并 译 码 ， 从 而 知道 你 到 底 想 要 表达 什么 ， 并 且 
我 们 事先 约定 好 以 水 平 线 为 基准 往 上 抖动 一 下 绳子 ， 
表示 1， 往 下 抖动 一 下 绳子 则 表示 0， 不 抖动 表示 无 信 
号 ， 而 且 约定 好 每 秒 抖动 一 次 ， 也 就 是 一 秒 钟 传输 一 
位 ， 即 拌 动 的 频率 为 1Hz。 因 此 你 拌 动 的 时 候 必 须 看 
着 表 的 秒针 ， 而 我 接收 的 时 候 也 必须 看 着 秒针 。10 点 
到 了 ， 我 盯 着 绳子 ， 但 是 第 一 个 波 在 10 点 零 ? 秒 才 到 
来 ， 这 2 秒 便 是 该 链 路 的 时 延 ， 时 延 并 不 会 导致 通信 
中 断 。 我 每 秒 都 会 在 线路 上 采样 一 次 ， 将 链 路 上 的 信 
号 采集 到 缓存 中 。 

这 个 过 程 很 合理 ， 但 是 很 不 稳定 ， 手 表 的 误差 是 
很 大 的 ， 假 设 你 我 的 手表 产生 了 半 秒 的 相位 差 ， 那 么 
我 在 线路 上 采样 的 时 候 ， 便 只 会 采 到 半 个 波 ， 此 时 该 
波 的 振幅 可 能 尚未 达到 最 大 ， 所 以 我 无 法 判断 该 波 是 
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受到 了 干扰 还 是 其 他 原因 ， 只 能 断 开 通信 ， 待 稍 后 重 
试 ， 而 此 时 你 我 手表 各 自 的 秒针 走动 的 频率 还 是 一 秒 
一 次 〈 每 秒 产生 的 误差 可 以 忽略 ) 。 所 以 说 ， 必 须 维 
护 通信 双方 的 相位 一 致 。 

很 容易 想到 ， 有 个 很 简单 的 做 法 可 以 实现 步调 一 
致 ， 比 如 我 们 手持 2 根 绳子 ， 其 中 一 根 用 来 发 送 实际 
数据 ， 另 一 根 则 专门 发 送 节拍 信号 ， 不 管 有 没有 数据 
传输 ， 节 拍 信号 永 不 停止 地 传输 过 来 ， 也 就 是 这 根 节 
拍 绳子 上 永远 都 在 重复 101010101 的 交替 信号 ， 我 会 
看 到 一 个 正弦 波 ， 通 过 这 个 波形 ， 便 可 以 得 知 对 方 此 
时 的 相位 ， 以 此 调整 自己 的 相位 ， 那 就 实现 了 完全 时 
钟 同步 。 按 照 节 拍 强 上 的 相位 ， 去 对 应 数据 绳 上 的 数 
据 信 号 采样 ， 就 可 以 保证 每 次 都 采 到 完整 的 信号 。 这 
样 做 看 上 去 很 不 错 ， 但 是 很 容易 想到 ， 其 需要 耗费 多 
余 的 绳子 ， 而 且 两 只 手 一 手 拉 住 一 根 绳子 拌 ， 很 显然 
增加 了 功 耗 ， 另 外 一 个 最 重要 也 最 不 好 把 握 的 是 ， 如 
果 节 拍 绳 的 长 度 与 数据 绳 的 长 度 不 同 ， 那 么 节拍 强 上 
传 过 来 的 信号 时 延 就 会 与 数据 绳 的 时 延 不 同 ， 时 延 虽 
对 频率 没有 影响 ， 但 是 对 相位 是 有 影响 的 ， 时 延 相 差 
了 多 少 ， 相 位 也 就 相差 了 相应 比例 的 数值 。 

有 没有 另 一 种 方式 来 实现 时 钟 和 相位 同步 呢 ? 先 
贤 们 是 很 有 智慧 的 ， 何 不 直接 从 数据 线 上 去 “猜测 ” 
出 对 方 当前 的 相位 呢 ? 如 果 数 据 线 上 不 断 有 波 到 来 ， 
我 就 可 以 从 波形 里 提取 出 相位 ， 然 后 与 我 自身 的 相位 
比 对 ， 从 而 微调 我 的 相位 ， 时 刻 与 对 方 保持 一 致 。 但 
是 ， 数 据 线 上 不 是 时 刻 都 有 信号 的 ， 如 果 假 设 在 5 分 
钟 之 内 ， 你 什么 都 没有 发 给 我 ， 数 据 线 上 静默 了 5 分 
钟 ， 那 就 彻底 没 略 了 ， 如 果 5 分 钟 内 的 误差 积累 足够 
导致 相位 无 法 同步 ， 那 么 此 时 通信 就 会 中 断 ， 必 须 重 
新 进入 链 路 协商 、 相 位 同步 等 链 路 初始 化 过 程 。 解 决 
这 个 问题 的 办 法 就 是 ， 即 便 是 发 送 方 不 发 送 数据 ， 
底层 也 要 不 停 地 发 送 一 些 填充 数据 ， 比 如 1010101 交 
蔡 ， 这 些 底层 自动 填充 的 数据 帧 被 称 为 空闲 〈idle) 
帧 ， 本 书 前 文中 也 介绍 过 ， 其 一 个 目的 就 是 为 了 给 接 
收 方 提供 足够 的 波形 让 其 双方 保持 时 钟 频率 和 相位 的 
同步 ， 接 收 方 接收 到 空闲 帧 ， 微 调 了 自己 的 相位 之 
后 ， 便 可 以 直接 丢掉 这 个 无 用 帧 了 。 这 便 是 所 谓 同步 
通信 的 概念 了 。 
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数字 通信 领域， 并 不 是 使 用 正弦 全 波 / 半 波 〈 想 
想 绳子 抖动 ) 来 表示 0 和 1 的 ， 而 是 使 用 方 波 的 形式 ， 
因为 电路 振荡 速率 是 很 高 的 ， 也 并 不 像 机 械 波 一 样 从 
0 振幅 拉 伸 到 最 大 振幅 是 个 连续 变化 过 程 ， 数 字 电 路 
从 0 到 1 是 变化 速度 更 快 ， 所 以 波形 上 成 了 方 波 。 如 果 
有 多 个 连续 的 1 或 者 0 要 被 发 送 ， 绳 子 上 会 出 现 多 个 弧 
形 波 ， 就 像 多 孔 拱桥 一 样 ， 是 按照 一 定 频率 和 相位 排 
列 的 ， 接 收 方 是 可 以 通过 这 个 波形 提取 出 频率 和 相位 
的 。 但 如 果 是 多 个 连续 的 方 波 ， 有 些 编码 方式 下 〈 比 
如 翻转 不 归 零 NRZI 编 码 ) ， 电 路 并 不 会 产生 跳 变 ， 
比如 连续 传输 n 个 1， 则 电路 持续 拉 高 电 平 ， 持 续 Су 
频率 ) 秒 ， 此 时 线路 波形 其 实 上 就 是 一 条 直线 ， 接 收 
方 是 无 法 从 其 中 提取 出 时 钟 和 相位 的 。 

难 不 成 还 不 让 传输 连续 的 多 个 1 或 者 0 了 ? 不 可 能 
的 。 先 贤 们 发 明了 一 种 方法 ， 也 就 是 ， 不 管 源 端 发 送 
什么 数据 ， 每 8 位 数据 底层 编码 电路 会 遵循 固定 的 算法 
向 其 中 强制 插入 2 个 元 余 位 ， 这 个 算法 会 分 析 这 8 位 数 
据 中 到 底 在 哪里 插入 0 或 者 1， 才 能 让 这 8 位 数据 里 包含 
的 1 和 0 的 个 数 是 尽量 相等 /平衡 的 ， 如 果 这 8 位 数据 恰 
好 是 8 个 1， 则 处 理 之 后 的 数据 就 变 为 1111011110。 大 
家 可 能 已 经 知道 底层 为 何 要 这 么 去 做 了 ， 就 是 为 了 让 
线路 上 的 信号 不 要 总 呈 一 条 直线 状 ， 起 码 时 不 时 地 要 
跳 变 一 下 ， 这 样 接收 方 就 不 至 于 惕 在 那 猜 “ 对 方 现在 
是 死机 了 呢 ， 还 是 在 传 连续 的 1/0 呢 ， 还 是 咋 回 事 ? 没 
法 对 表 了 啊 ! ”， 提 取 不 出 对 方 的 相位 就 难免 两 边 出 
现 “ 同 步 丢失 ”， 链 路 中 断 。 只 要 有 跳 变 ， 接 收 方 就 
可 以 提取 出 频率 和 相位 信号 ， 从 而 微调 本 地 频率 和 相 
位 ， 锁 相 环 电路 (Phase Lock Loop, PLL) 就 是 负责 从 
接受 线路 上 提取 并 同步 相位 的 ， 这 样 就 可 以 保证 时 刻 
同步 。 接 收 方 在 收 到 编码 之 后 的 数据 时 ， 会 用 相同 的 
算法 去 掉 被 插入 的 2 位 元 余 码 ， 恢 复原 来 的 8 位 数据 。 

上 述 的 编码 方式 称 为 8b/10b 编 码 ， 还 有 128b/130b 
编码 ， 其 目的 都 是 一 样 的 。 另 外 ， 这 种 编码 其 实 还 有 
个 作用 就 是 保证 直流 平衡 。 大 家 都 知道 屏幕 保护 程 
序 ， 对 于 早期 的 CRT 显 示 器 ， 如 果 长 时 间 显 示 同 一 副 
画面 ， 比 如 一 些 视频 监控 的 显示 器 ， 屏 幕 上 的 画面 长 
期 都 那 一 个 样 ， 一 年 之 后 ， 当 你 关闭 显示 器 后 ， 会 发 
现 那 幅 画面 竟然 被 印 在 屏幕 上 了 ， 当 然 没 了 灯 管 会 很 
暗 ， 但 是 依然 可 以 看 清 ， 这 就 是 屏幕 老化 了 。 长 期 一 
个 动作 ， 会 导致 很 多 问题 ， 比 如 肌肉 会 老化 僵硬 、 会 
得 颈椎 病 ， 屏 幕 同 理 ， 电 路 也 如 此 ， 长 时 间 传 1 或 者 
0， 长 期 保持 高 / 低 电 压 ， 电 路 是 受 不 了 的 ， 会 老化 ， 
最 后 就 是 损坏 。 所 以 ， 人 用 脑 时 间 长 了 必须 休息 ， 脖 
子 伸 长 了 对 着 屏幕 必须 时 不 时 转 两 图， 同 理 ， 电 路 必 
须 平 衡 1 和 0 的 数量 。 

链 路 初始 化 的 时 候 ， 两 边 的 相位 多 数 时 候 不 会 那 
么 巧 ， 所 以 一 定 是 不 一 致 的 ， 如 何 “ 对 表 ”? 这 是 个 
自动 的 过 程 ， 两 边 的 链 路 会 各 自发 送 一 些 特殊 的 1/0 交 
替 的 信号 ， 供 对 方 的 PLL 提 取 相 位 信息 并 调节 自己 的 
相位 。 两 边 各 自 微调 ， 直 到 最 后 一 下 子 对 上 了 ， 才 会 


进入 下 一 步 协商 阶段 。 

采用 单独 时 钟 同步 信号 线 来 同步 两 边 时 钟 的 方法 
称 为 外 同步 ， 而 利用 数据 线 上 的 原生 信号 来 提取 出 时 
钟 和 相位 的 方式 称 为 内 同步 。 

试想 一 下 ， 如 果 你 和 我 之 间 真 的 拉 一 根 绳子 来 通 
信 ， 用 得 着 提前 对 表 而 且 每 次 发 送 一 个 波 还 都 得 看 表 
Z? 这 样 做 太 高 端 ， 咱 们 俗人 就 用 俗人 的 方式 ， 比 如 
我 们 预先 规定 好 ， 以 每 秒 9600 次 的 频率 通信 ， 并 且 最 
关键 的 一 点 ， 每 次 发 送 数据 最 多 只 能 抖动 8 КО СВ, 
或 称 一 个 字符 ) ， 而 且 发 送 这 8 位 之 前 ， 还 必须 先 往 
上 /下 抖动 一 下 来 告诉 对 方 “ 哎 ， 我 要 发 了 哈 ” СЕ 
位 ) ， 每 次 发 送 完 必 须 往 下 /上 抖动 一 下 告诉 对 方 “我 
发 送 完了 哈 ” (停止 位 ) 。 如 果 没 有 数据 要 发 送 ， 绳 
子 上 就 风平浪静 ， 保 持 上 一 个 字符 停止 位 时 的 电 平 ， 
这 样 下 一 个 字符 发 送 时 其 起 始 位 到 来 时 会 产生 一 个 跳 
变 ， 接 收 方 感受 这 个 跳 变 就 可 以 知道 有 一 个 字符 到 来 
了 。 当 然 ， 接 收 方 需要 以 更 高 的 感知 频率 去 感知 这 个 
跳 变 ， 也 就 是 你 的 眼睛 需要 不 断 地 以 高 频率 观察 这 个 
跳 变 ， 否 则 可 能 会 走神 没 看 到 ， 所 以 需要 一 个 比 9600 
Hz 高 得 多 的 采样 时 钟 来 对 导线 上 的 信号 进行 采样 〈 用 
锁 存 器 锁 住 信号 ) 。 这 样 的 话 ， 双 方 的 手表 不 用 严格 
保持 相位 相同 ， 只 要 接收 方 感受 到 了 起 始 位 电压 越 
变 ， 就 开始 间隔 一 定 的 采样 时 钟 频率 对 导线 上 的 信号 
按照 9600 Hz 进行 采样 ， 可 能 每 次 无 法 在 信号 的 正中 
心 采 到 ， 但 是 由 于 采样 时 钟 远 高 于 9600Hz， 所 以 偏 一 
点 没有 任何 问题 。 


这 里 的 一 个 疑惑 在 于 ， 如 果 发 送 方 在 发 送 每 个 
字 节 之 前 都 有 足够 长 时 间 的 空 闸 ， 那 么 发 送 方 检测 
到 长 时 间 空 闲 后 的 第 一 个 低 电 平 就 是 起 始 位 。 但 是 
如 果 发 送 方 如 果 接 连 不 断 地 发 送 数据 ， 接 收 方 在 半 
途中 将 线 缆 连 接 到 了 链 路 上 ( 热 插 拔 ) ， 由 于 数据 
位 1->0 也 会 让 接收 方 检测 到 低 电 平 ， 但 是 这 却 并 不 
是 起 始 位 。 此 时 接收 方 如 何 对 每 个 字 节 定 界 ? 此 
时 ， 接 收 方 大 可 以 就 认为 该 低 电 平 就 是 起 始 位 ， 那 
么 它 后 续 接 收 到 的 整个 字 节 ， 高 概率 是 错误 的 ， 
会 丢弃 ， 然 后 继续 等 待 低 电 平 到 来 ， 而 有 可 能 再 次 
等 到 的 是 数据 位 的 1 到 0 的 跃 变 ， 此 时 又 会 校 验 出 
错 。 假 设 碰巧 校 验 正 确 了 ， 那 么 该 字 节 会 被 接收 并 
显示 ， 显 然 ， 该 字 节 将 会 是 一 个 乱码 ， 这 就 是 把 串 
口 连接 到 设备 上 ， 一 开始 可 能 出 现 乱 码 的 原因 。 之 
后 ， 下 一 个 字符 可 能 又 会 校 验 出 错 。 就 这 样 一 直 检 
测 ， 一 段 时 间 之 后 ， 总 能 检测 到 正确 的 起 始 位 ， 从 
此 开始 ， 后 续 的 传输 就 会 是 正确 无 误 的 了 。 多 数 时 
候 发 送 方 并 不 会 连续 不 断 地 发 送 字 符 ， 总 会 有 一 些 
间隔 ， 间 隔 结束 的 第 一 个 低 电 平一 定 是 起 始 位 ， 此 
时 接收 方 就 会 接收 到 正确 字符 。 而 这 一 切 对 于 人 而 
言 是 瞬间 的 ， 从 概率 上 讲 ， 并 不 会 出 现 长 时 间 无 法 
正确 定 界 起 始 位 的 情况 。 


采样 时 钟 


整个 采样 过 程 的 示意 图 如 图 6-94 所 示 。 最 后 收 到 
1 位 停止 位 表示 本 次 发 送 结束 。 可 以 看 到 ， 每 8 位 要 附 
加 2 位 控制 位 ， 开 销 25%， 所 以 异步 传输 不 适合 于 高 
速 高 带宽 场景 ，PC 上 的 COM 口 就 是 这 种 传输 方式 。 
这 就 是 异步 通信 。 相 信 大 家 也 能 体会 出 这 里 的 “ 同 
步 ”“ 异 步 ” 的 含义 了 。 


位 1 位 2 
е 起 始 位 ол ол 


и Хажењи ~ ЕЈ 
位 前 沿 的 时 钟 АЕО. ый 
图 6-94 ”异步 品行 通信 接收 方 采样 原理 示意 图 


另外 ， 同 步 通信 时 刻 需 要 时 钟 同步 ， 如 果 使 用 了 
内 同步 ， 则 就 算 上 层 没有 任何 数据 要 发 送 ， 底 层 也 得 
自动 发 送 IDEL 帧 或 者 NULL 帧 〈 不 同 叫 法 而 已 ) ， 就 
是 为 了 让 对 方 时 刻 能 够 从 线路 上 提取 出 时 钟 来 。 而 异 
步 通信 由 于 时 钟 是 临时 同步 起 来 的 ， 所 以 上 层 没 数 据 
的 时 候 ， 线 路 上 就 没 信号 ， 这 样 省 电 ， 但 是 速率 不 能 
太 高 ， 太 高 就 不 能 靠 临时 提取 时 钟 来 锁定 了 ， 就 得 用 
同步 通信 。 所 以 ， 同 步 通信 可 以 说 是 按 位 来 同步 的 ， 
同步 精度 是 位 ， 而 异步 则 是 按 一 帧 或 者 说 一 个 字符 、 
一 段 数据 来 同步 的 。 

QPI 使 用 的 是 外 同步 ， 每 个 20 位 (20 Lane) 的 并 
行 链 路 都 跟着 一 条 时 钟 同 步 线 。 另 外 ， 不 幸 的 是 ， 这 
20 位 中 ，4 位 用 来 作为 剩余 16 位 的 CRC 校 验 数据 ， 所 
以 一 个 单 向 链 路 的 有 效 位 宽 最 终 就 是 32 位 ， 有 效 带宽 
是 25.6GB/s。 另 外 ，QPI 是 在 不 断 提速 的 ， 到 落笔 为 
止 ，Intel 最 新 CPU 内 的 QPI 编 码 器 速率 已 经 提升 到 8G 
次 /s。 

关于 底层 通信 方面 更 详细 的 知识 可 以 阅读 本 书 第 
7 章 。 


6.5.2 ”QPI 链 路 层 网 络 层 和 消息 层 


链 路 层 的 责任 是 负责 数据 帧 的 发 送 接收 ， 并 向 
上 层 提供 数据 发 送 接口 。QPI 链 路 层 使 用 基于 信用 的 
流 控 机 制 ， 发 送 方 只 有 在 拥有 足够 的 信用 点 数 情况 下 
才能 发 送 相应 数量 的 数据 帧 ， 接 收 方 每 成 功 接收 到 
一 个 数据 帧 ， 就 在 应 答 帧 中 通知 发 送 方 信用 点 数 可 
以 +1。 

核心 不 仅 可 以 发 出 访 存 请 求 ， 还 可 能 会 发 出 用 
于 实现 缓存 一 致 性 的 各 种 同步 、 探 询 请 求 。 所 有 这 些 
请 求 消息 可 以 分 为 六 大 类 别 ， 不 同 消息 类 别 的 属性 不 
同 ， 比 如 有 些 消 息 不 需要 保证 数据 包 的 接收 顺序 与 发 
送 顺序 相同 ， 可 以 乱 序 发 送 ， 而 有 些 消 息 发 送 时 则 必 
须 保 证 顺序 。 当 前 设计 下 ，QPI 最 多 可 支持 14 个 消息 


第 6 章 ЕВЕ ИК) —— ZuE РЕПНЕ 


类 别 ， 但 是 目前 只 使 用 了 6 个 ， 如 图 6-95 所 示 。 在 发 
送 的 数据 帧 中 会 包含 类 别 字段 ， 以 告诉 整个 网 络 上 的 
所 有 Crossbar 该 数据 帧 需要 如 何 处 理 ， 是 否 必须 按照 
顺序 接收 发 送 ， 以 及 可 以 根据 类 别 排 优先 级 从 而 决定 
先 发 送 哪个 后 发 送 哪个 。 发 送 方 发 送 数据 时 必须 将 
消息 类 别 通告 给 QPI 控 制 器 ， 后 者 则 生成 对 应 的 数据 
帧 。 比 如 L3 缓 存 控制 器 由 于 缓存 未 命中 ， 发 出 一 条 读 
存储 器 请 求 时 ， 该 请 求 的 类 别 为 Snoop 类 别 ， 因 为 这 
条 访 存 请 求 其 实 是 需要 到 其 核心 的 取 有 缓存 中 去 查找 
一 番 的 。 这 些 细节 详 见 本 章 后 面 内 容 。 


Snoop 
Home 
Non-data Response 


| None 
| Required 


Non-coherent Standard 
Non-coherent Bypass 


图 6-95 QPI 链 路 层 对 上 层 提供 的 消息 类 别 通道 


QPI 链 路 层 将 物理 层 虚拟 成 三 个 虚拟 网 络 
(Virtual Network) 通道 VN0、VN1 和 VNA。 本 书 
前 文中 也 提 到 过 ， 虚 拟 通道 的 本 质 就 是 多 个 FIFO 缓 冲 
队列 ， 按 照 不 同 的 优先 级 策略 ， 轮 流 地 从 这 三 个 通道 
中 取出 消息 ， 然 后 从 同一 个 物理 接口 中 发 出 去 ， 但 是 
每 个 通道 队列 中 的 消息 只 能 按照 FIFO 顺 序 发 送 。VN 
其 实 就 是 QPI 对 虚拟 通道 (Virtual Channel， 前 文中 介 
绍 过 ) 的 另外 一 个 包装 名 词 而 已 。 VN0、VN1 和 VNA 
这 三 个 虚拟 通道 每 个 都 具有 相互 独立 的 缓冲 队列 ， 为 
了 区 别 对 待 ， 有 些 消息 类 别 只 能 进入 VN0， 有 些 只 能 
进入 VN1， 而 VNA 则 可 以 承载 任何 类 型 的 消息 。 由 于 
不 同 消息 类 别 必须 走 各 自 的 VN， 也 就 是 放 入 各 自 对 
应 的 队列 ， 所 以 即使 被 映射 到 VN0 的 消息 过 多 ， 它 们 
也 不 能 走 VN1，VN1 此 时 如 果 有 闲置 资源 ， 也 不 能 被 
充分 利用 。VNA 就 是 为 了 应 对 这 种 场景 的 ， 相 当 于 
咱们 前 文中 提 到 过 的 无 率 者 缓存 CVictim Cache) , 
VNA 可 承载 所 有 消息 类 型 ， 用 来 放置 临时 排 不 开 的 那 
些 消息 。 在 系统 设计 时 ， 可 以 根据 不 同 场景 选择 使 用 
VNA， 这 样 流量 就 可 以 均 挫 到 所 有 缓存 /队列 了 。 

所 有 消息 共享 同一 个 通道 的 后 果 就 是 一 旦 某 个 
消息 受到 阻塞 而 迟 迟 得 不 到 发 送 ， 那 么 该 消息 会 堵 住 
该 通道 队列 后 面 排 着 队 的 所 有 消息 ， 所 以 实际 中 如 果 
选用 了 VNA， 则 需要 同时 启用 VN0O 和 VN1 中 的 至 少 
= 

链 路 层 将 上 层 划分 的 6 大 消息 类 别 按照 一 定 的 优 
先 级 和 仲裁 策略 放置 到 对 应 的 队列 中 ， 从 这 三 个 虚拟 
网 络 选择 一 个 发 出 去 ， 这 样 就 相当 于 有 6X3=18 个 虚 
拟 路 径 /通道 。 每 个 数据 帧 都 带 有 对 应 的 消息 类 别 标识 
和 虚拟 网 络 标识 。 如 图 6-96 所 示 ， 消 息 经 过 虚拟 通道 
到 虚拟 网 络 最 后 到 物理 层 。 

再 来 看 看 QPI 网 络 的 拓扑 。QPI 网 络 的 连接 方式 
属于 前 文中 出 现 过 的 Cube 型 拓扑 。 仔 细 观 察 图 6-97 中 


0 可 大 话 计算 机 一 一 计算 机 系统 底层 架构 原理 极限 剖析 


图 所 示 的 拓扑 ， 如 果 将 这 个 二 维 平面 在 三 维 空间 折 镭 
的 话 ， 刚 好 会 形成 一 个 立方 体 ， 每 个 立方 体 有 8 个 项 
点 ， 刚 好 对 应 一 个 CPU， 每 个 CPU 出 3 路 QPI 链 路 分 别 
连接 到 其 周围 的 3 个 顶点 ， 再 各 出 1 路 QPI 链 路 连接 到 IO 
桥 片 上 。 


Bold orange 
line indicates 


one possible 
Virtual Channel 
out of 18 total 
possibilities 


Virtual 
Networks 


图 6-96 ”消息 类 别 经 过 虚拟 通道 到 虚拟 网 络 最 后 到 物理 层 


经 过 这 样 的 设计 之 后 ， 任 意 一 个 CPU 到 其 他 CPU 
的 通路 最 短 是 1 跳 ， 最 长 也 只 有 2 跳 ， 性 能 上 还 是 可 以 
接受 的 。 如 果 要 做 到 任意 两 点 间 都 是 1 跳 可 达 ， 那 么 
就 需要 每 个 CPU 出 7 个 QPI 链 路 ， 分 别 直 连 到 其 他 7 个 
顶点 ， 这 样 的 话 ， 从 这 个 正方 体 在 二 维 平面 的 投影 就 
可 以 看 出 该 拓扑 变 成 了 点 对 点 直 连 拓扑 ， 这 是 性 能 最 


EE3 


高 效 的 拓扑 ， 但 也 是 成 本 最 高 的 拓扑 。 

4 个 CPU 互联 会 组 成 等 效 于 点 对 点 直 连 的 拓扑 ， 
任意 两 点 间 一 跳 直 达 。 服 务 器 一 般 每 个 主板 最 多 能 放 
得 开 4 路 CPU， 这 4 个 CPU 之 间 的 互联 导线 是 直接 印刷 
在 主板 PCB 上 的 ， 定 死 的 。 但 是 如 果 要 实现 8 路 CPU 
紧 耦 合成 一 台独 立 计 算 机 ， 就 需要 两 个 主板 〈 两 个 机 
箱 ) ， 两 个 机 箱 之 间 可 以 使 用 背 板 连接 器 连接 起 来 ， 
也 可 以 使 用 线 费 连 接 。 多 数 实现 都 选择 了 后 者 ， 因 为 
使 用 后 者 不 需要 开发 单独 的 背 板 和 机 箱 笼子 ， 直 接 把 
两 台 单独 的 4 路 服务 器 级 联 起 来 就 可 以 当 8 路 卖 ， 两 不 
误 。 如 图 6-97 所 示 ， 左 图 为 固定 配置 不 可 扩展 的 4 路 
服务 器 ， 中 图 则 表示 2 人 台 4 路 服务 器 通过 线 缆 级 联 起 来 
组 成 8 路 紧 耦 合 系统 ，8 路 CPU 互联 拓扑 ， 把 它 三 维 化 
之 后 ， 其 实 就 是 一 个 Cube 拓 扑 。 右 图 表示 一 台 可 扩 
展 的 4 路 服务 器 ， 如 果 就 想 用 4 路 而 不 想 扩展 到 8 路 的 
话 ， 那 么 留 出 的 4 个 连接 器 就 没有 用 处 了 ， 此 时 可 以 
把 4 个 开放 的 QPI 接 口 做 环 回 处 理 ， 最 终 效果 与 左 图 所 
示 的 那 种 点 对 点 直 连 拓扑 等 效 ， 这 样 就 可 以 为 QPI 网 
络 增加 更 多 路 径 ， 提 升 带宽 。 当 然 ， 也 可 以 选择 不 环 
回 ， 那 么 这 样 4 个 CPU 之 间 就 会 少 2 条 链 路 ， 不 能 实现 
一 跳 直 达 ， 性 能 会 变 差 。 

图 6-98 为 QPI 级 联 线 的 样子 ， 可 以 对 比 一 下 其 尺 
寸 ， 还 是 不 小 的 ， 连 接 器 很 长 ， 插 模 很 深 ， 而 且 不 同 
厂商 的 连接 器 的 相貌 还 不 一 样 。 其 中 第 三 幅 图 就 是 将 
两 台 4 路 服务 器 拼接 成 逻辑 上 一 台 8 路 紧 耦 合 的 服务 器 
时 的 场景 。 图 6-99 所 示 为 QPI 环 回 卡 ， 该 卡 的 内 部 电 
路 板 上 其 实 就 是 QPI 导 线 ， 等 价 于 级 联 线 。 
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6-98 ”QPI 级 联 线 的 相貌 


图 6-99 右 图 是 一 个 可 扩展 的 4 路 系统 的 框图 ， 可 
以 看 到 每 个 CPU 出 1 路 QPI 链 路 供 级 联 另 一 个 4 路 系 
统 ，QPI 环 回 卡 的 作用 就 是 将 2 个 留 出 来 的 QPI 链 路 在 
内 部 连接 起 来 ， 从 而 将 这 个 开放 的 4 路 系统 变 成 一 个 
封闭 的 4 路 系统 。 

QPI 的 网 络 层 寻 址 采用 的 是 Node ID， 每 个 连接 
到 QPI 网 络 的 节点 ， 包 括 CPU、IO 桥 ， 都 会 有 各 自 的 
Node ID。Node ID 是 系统 启动 时 根据 拓扑 动态 自分 
配 的 。 


6.5.3 ”QPI 的 初始 化 与 系统 启动 


CPU 是 从 板 载 ROM 里 读 取代 码 启动 的 ，ROM 
被 存储 在 一 块 Flash 芯 片 里 ， 连 接 到 IO 桥 。 当 然 ， 
CPU 本 身 是 不 会 知道 当前 它 所 读 取 的 代码 到 底 存在 于 
RAM? 缓存 ? IO 控制 器 寄存 器 ? 还 是 ROM 里 ? CPU 
加 电 后 ， 主 板 上 的 硬件 会 在 短暂 时 间 内 向 CPU 管 脚 放 
置 reset 信 号 ， 直 到 电压 电流 平稳 之 后 ， 才 会 释放 reset 
信号 ， 此 时 CPU 就 像 脱 了 组 的 野马 一 样 ， 它 迈 出 的 第 
一 步 总 是 从 一 个 被 写 死 的 地 址 上 读 取代 码 ， 也 就 是 说 
“ 喇 喇 待 哺 ” 的 CPU 核 心 会 在 它 的 地 址 信号 线 上 放置 
该 地 址 信号 。 而 创 世 之 初 内 存 里 空空 如 也 ， 甚 至 内 存 
自身 都 没有 准备 好 ， 没 有 机 器 码 来 喂 给 CPU， 还 好 ， 
母亲 已 经 储存 好 了 有 限 的 母乳 让 其 度 过 这 段 艰难 时 
刻 ， 这 就 是 被 固化 在 Flash 里 的 ROM 中 的 代码 。ROM 
Flash 是 连接 到 IO 桥 的 ， 而 CPU 芯片 又 是 通过 QPI 连 
接 到 IO 桥 的 ， 所 以 ， 核 心 外 围 的 部 件 以 及 CPU 外 围 
的 芯片 组 必须 知道 应 该 把 核心 发 出 的 这 个 地 址 信号 传 
给 QPI 控 制 器 ， 而 QPI 控 制 器 以 及 Crossbar 必 须知 道 这 
个 地 址 请 求 一 定 得 发 送 给 IO 桥 ，IO 桥 也 必须 知道 ， 
收 到 这 个 地 址 的 访问 请 求 的 话 ， 就 必须 发 送 给 其 上 的 
Flash 控 制 器 而 不 是 USB 控 制 器 也 不 是 PCIE 控 制 器 。 这 
一 切 都 是 被 写 死 的 路 由 表 控制 完成 的 ， 大 家 必须 这 么 
做 ， 否 则 就 活 不 下 去 。 这 就 像 婴 儿 出 生 时 嘴巴 就 在 不 
停 地 哆 吸 一 样 ， 而 不 在 乎 你 给 她 的 是 奶瓶 还 是 手指 。 


6.5.3.1 ” 链 路 初始 化 和 拓扑 发 现 


所 以 ， 在 CPU 开 口 哆 吸 之 前 ，QPI 必 须 已 经 完成 
初始 化 ， 并 且 掌 握 了 整个 QPI 网 络 内 的 所 有 节点 的 路 
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由 信息 。QPI 初 始 化 的 第 一 步 就 是 要 先 把 链 路 给 连 
通 ， 也 就 是 链 路 两 边 时 钟 频率 和 相位 要 先 同步 ， 这 是 
前 提 。 然 后 双方 各 自 检测 对 方 的 链 路 是 否 已 有 信号 ， 
并 发 送 一 些 测试 帧 来 试探 所 有 链 路 是 否 可 用 。QPI 物 
理 层 初始 化 时 并 不 会 立即 就 运行 在 全 速 ， 它 会 以 低 
速 时 钟 频率 33.3MHz (由 于 采用 DDR， 所 以 实际 速率 
为 66.6 M 次 /s) 开始 运行 ， 通 过 交换 双方 所 支持 的 参 
数 ， 确 定 双方 支持 的 最 大 速率 。 在 QPI 控 制 器 内 部 硬 
件 模块 控制 下 ，QPI 控 制 器 内 部 的 初始 化 模块 将 对 应 
的 参数 写 入 双方 的 控制 寄存 器 ， 然 后 复位 物理 层 ， 复 
位 之 后 就 可 以 以 最 大 速率 运行 ， 这 个 过 程 称 为 链 路 
训练 。 

物理 层 搞定 之 后 ， 链 路 层 开 始 忙活 了 。 双 方 各 
自 都 维护 了 一 个 链 路 状态 机 硬件 部 件 ， 其 会 向 对 方 发 
送 一 些 链 路 层 初 始 化 信息 帧 ， 即 链 路 交换 参数 (Link 
Exchange Parameters, LEP) ， 其 中 包含 双方 的 QPI 端 
口号 、 各 自 所 连接 的 部 件 〈 比 如 内 存 控制 器 、L3 缓 存 
控制 器 、 分 管 缓存 一 致 性 的 控制 器 等 QPI 网 络 的 消费 
者 /使 用 者 ) 、Node ID、 所 支持 的 节能 档 位 、 所 支持 
及 倾向 的 CRC 校 验 模式 、 各 自 的 Retry Buffer 大 小 ， 
等 等 。 各 节点 的 Node ID 会 根据 一 定 的 规则 生成 ， 
IO 桥 的 Node ID 先 被 写 死 ， 就 是 0， 然 后 链 路 状态 机 
再 根据 CPU 与 IO 桥 之 间 的 跳 数 、 所 连接 IO 桥 上 QPI 
的 端口 ID 等 条 件 ， 来 确定 各 自 的 Node ID 。 一 般 规则 
为 ，Node ID=Socket ID+IO 桥 的 Node ID+1， 而 Socket 
ID= 连 接 到 IO 桥 的 端口 号 ， 比 如 某 CPU 连 接 到 IO 桥 
的 0 号 QPI 端 口 ， 那 么 这 个 CPU 的 Socket ID=0，Node 
ID=0+0+1=1, Node ID 完全 由 QPI 相 关 的 硬件 逻辑 自 
行 发 现 和 生成 ， 不 需要 任何 系统 软件 参与 。 


6.5.3.2 ”系统 启动 


QPI 的 链 路 层 初始 化 过 程 中 ， 整 个 CPU 一 直 被 加 
着 Reset 信 号 ， 直 到 供电 稳定 以 及 QPI 网 络 的 基本 参数 
被 初始 化 好 ，Reset 信 号 才 会 被 释放 。 一 旦 释放 ，CPU 
便 要 开始 取 指 令 了 。 但 是 喜欢 深究 的 人 会 思考 这 样 
的 问题 现在 的 CPU 都 是 多 核心 的 了 ， 到 底 启 动 的 时 
候 由 哪个 核心 来 执行 BIOS ROME? 还 是 一 起 并 行 执 
行 ? 我 们 拿 Intel 的 多 核 CPU 来 举例 ， 真 相 远 比 你 想象 
得 复杂 。 


图 6-99 QPI 环 回 卡 及 4 路 系统 内 部 框图 


本 大 话 计算 机 一 一 计算 机 系统 底层 架构 原理 极限 剖析 


当 Reset 信 和 号 被 释放 之 后 ， 系 统 中 的 每 个 CPU 会 从 
本 CPU 内 的 多 个 核心 中 选举 出 一 个 NBSP (Node Boot 
Strap Processor， 节 点 启动 主 核心 ) ， 这 个 选举 过 程 本 
身 也 是 靠 执行 一 系列 内 部 写 死 的 逻辑 来 完成 的 。 这 些 
逻辑 被 保存 在 CPU 内 部 的 鲜 为 人 知 的 微 码 中 ， 执 行 微 
码 的 可 以 是 专用 的 硬件 逻辑 ， 也 可 以 是 一 个 极 简 的 单 
独 的 代码 执行 电路 ， 还 可 以 直接 是 主 CPU 核 心 自己 ， 
这 方面 视 不 同 产品 设计 而 不 同 。 选 举 出 的 NBSP 会 进 
内 建 自 检 (Built-In Self-Testing，BIST) 流程 ，BIST 
过 程 会 耗费 几 千 万 个 时 钟 周期 ， 大 概 10 ms 左右 ， 主 
要 是 做 一 些 非常 底层 的 芯片 内 部 电路 级 检测 和 配置 。 
请 注意 ，BIST 是 CPU 芯片 自己 做 的 ， 此 时 还 没有 执 
行 BIOS 代 码 ， 与 BIOS 做 的 上 电 自 检 (Power On Self 
Testing，POST) 完全 不 一 回 事 。 那 些 未 被 选 为 NBSP 
的 核心 被 称 为 应 用 处 理 器 (Application Processor， 
AP) ， 会 被 强行 进入 Halt 状 态 ， 直 到 被 NBSP 使 用 处 
理 器 间 中 断 〈IPI) 唤醒 为 止 。 


取决 于 系统 拓扑 ， 那 些 距离 IO 桥 较 近 的 核心 的 优先 
级 会 比 距 离 较 远 的 高 ， 其 主要 方法 是 多 个 核心 同时 
以 原子 写 的 方式 争先 将 自己 的 标识 写 入 到 一 个 寄存 
器 ， 谁 先 抢 到 谁 获胜 。 因 为 选举 出 来 的 NBSP 在 下 
一 步 将 要 执行 BIOS 代 码 ， 所 以 离 10 桥 较 近 的 核心 
就 会 有 更 高 的 胜算 。 系 统 在 最 初 初始 化 过 程 中 ， 会 
根据 自己 离 1O 桥 的 距离 来 给 自己 分 配 APIC ID, 这 
个 ID 也 决定 了 该 核心 的 选举 优先 级 。 


每 个 CPU 都 会 选举 自己 的 NBSP 并 执行 BIST 过 
程 ， 这 个 过 程 结 束 之 后 ，NBSP 就 该 去 执行 BIOS 代 码 
了 。 每 个 CPU 芯片 选举 出 来 的 NBSP 核 心 紧 接着 都 会 
去 执行 一 个 内 嵌 在 BIOS 中 的 一 个 特殊 的 独立 小 固件 
(firmware) ， 它 被 称 为 Pre-EFI 固 件 ， 是 在 整个 系统 
执行 EFI BIOS 主 程序 之 前 所 必须 执行 的 一 个 固件 。 这 
个 固件 的 作用 是 初始 化 本 CPU 内 的 其 他 核心 CAP) 以 
及 连接 在 本 CPU 上 的 DDR 内 存 ， 每 个 CPU 上 所 选举 出 
的 NBSP 都 会 执行 这 个 固件 〈 所 有 CPU 共享 同一 份 ， 
存在 BIOS ROM FLash 中 ) ， 从 而 初始 化 自己 。 这 个 
固件 也 算是 BIOS 的 一 部 分 ， 共 同 被 存储 在 ROM Flash 
中 ， 而 ROM 可 能 被 挂 接 到 QPI 网 络 远 端的 MO 桥 上 ， 
NBSP 从 ROM 中 取 指 令 ， 发 出 的 地 址 访问 请 求 必须 被 
QPI 路 由 到 ROM 芯 片 ， 所 以 在 NBSP 发 出 取 指 命令 之 
前 ，QPI 控 制 器 自身 就 必须 自己 做 基本 的 初始 化 ， 包 
括 链 路 训练 和 协商 过 程 。QPI 底 层 连通 了 之 后 ， 还 
不 够 ， 还 得 知道 ROM 所 在 的 具体 位 置 ，NBSP 发 出 
的 取 指 信号 到 底 要 从 哪个 QPI 口 发 出 去 才能 到 达 对 应 
的 IO 桥 。 

上 文中 提 到 过 ， 每 个 QPI 控 制 器 都 会 向 外 发 送 
LEP 帧 声明 自己 后 面 挂 接着 哪些 模块 ，UO 桥 上 的 QPI 


控制 器 会 声明 自己 后 面 挂 接 了 固件 ROM 模 块 。NBSP 
执行 微 码 ， 从 而 通过 读 取 QPI 控 制 器 中 的 对 应 的 寄存 
器 来 判断 出 固件 ROM 所 在 的 位 置 ， 以 及 走 哪 条 路 可 
以 到 达 ， 然 后 将 对 应 的 路 由 信息 写 入 到 网 络 上 对 应 的 
QPI 控 制 器 中 ， 就 可 以 从 ROM 中 取 指 令 了 。 微 码 很 关 
键 ，BIOS 还 没 被 执行 之 前 ， 微 码 就 是 母亲 仅 存 的 一 
点 点 乳汁 。 微 码 会 将 一 个 写 死 的 地 址 导入 到 NBSP 的 
PC 指针 寄存 器 ， 从 而 让 NBSP 跳 转 到 这 个 地 址 去 取 指 
令 ， 该 地 址 经 过 刚才 配 好 的 映射 表 查 找 之 后 ， 被 重 定 
向 到 对 应 的 QPI 端 口 ，QPI 控 制 器 封装 成 QPI 帧 ， 加 入 
对 应 的 目的 Node ID (LO 桥 的 Node ID) ， 发 送 到 IO 
桥 ，IO 桥 收 到 该 消息 后 ， 解 码 ， 给 挂 在 其 上 的 Flash/ 
Rom 控制 器 发 指令 读 出 对 应 指令 返回 给 NBSP 执 行 ， 
从 而 进入 到 BIOS 程 序 中 的 Pre EFI 阶 段 的 控制 逻辑 中 
运行 。 


提示 > 

Pre-EFI 固 件 到 底 放 在 哪里 ， 不 同 的 设计 有 不 同 
考虑 。 对 于 CPU 数 量 较 多 的 系统 ， 基 本 都 会 放 到 外 
置 Flash 中 与 主 BIOS 代 码 放 在 一 起 ， 这 个 Flash 再 连 
接 到 IJO 桥 ; 而 对 于 不 需要 扩展 性 的 底 端 系统 ， 可 以 
直接 放 到 CPU 内 部 。 规 模 较 大 的 系统 还 可 以 使 用 专 
门 的 服务 处 理 器 (service processor ) 来 负责 BIOS 加 
载 和 各 种 初始 化 过 程 ; 对 于 小 规模 系统 ， 这 些 活 就 
直接 靠 CPU 自己 二 了。 这些 实现 上 的 不 同 ， 就 需要 
系统 制造 商 去 根据 这 些 差异 来 设计 主板 和 BIOS。 


Pre-EFI 固 件 接 下 来 一 步 很 重要 的 动作 就 是 唤醒 与 
NBSP 处 于 同一 颗 CPU 芯 片 里 那些 处 于 Halt 状 态 的 AP 
核心 ， 让 它们 也 开始 执行 初始 化 代码 。NBSP 通 过 向 
片 内 连接 着 所 有 核心 的 总 线 /网 络 /Ring 上 发 送 Startup 
IPI (SIPI) 处 理 器 间 中 断 消 息 来 唤醒 AP 核心 们 ， 在 
SIPI 消 息 中 含有 一 个 中 断 向 量 AB (AB 的 值 视 具体 设 
计 而 定 ) ， 用 这 个 向 量 可 以 拼 成 一 个 000AB000H (H 
表示 十 六 进 制 ) 的 地 址 ， 这 个 内 存 地 址 处 〈 位 于 ROM 
中 ) 存放 的 是 专门 为 AP 核心 编写 的 系统 初始 化 代码 。 
每 个 核心 都 有 一 个 用 于 接收 中 断 信号 的 电路 ，AP 收 到 
这 个 中 断 消息 ， 便 从 Halt 状 态 醒 来 并 且 从 000AB000H 
地 址 载 入 初始 化 代码 执行 。AP 的 初始 化 过 程 中 会 做 
一 些 诸如 启用 各 级 缓存 、 初 始 化 相关 寄存 器 、 进 入 保 
护 模式 (UEFI BIOS 运 行 在 保护 模式 ， 传 统 BIOS 运 行 
在 实 模式 ) 以 及 最 终 会 向 NBSP 准 备 好 的 系统 配置 表 
中 声明 自己 的 存在 (将 核心 数量 变量 +1) 。AP 有 多 
个 ， 它 们 必须 一 个 接 一 个 地 执行 初始 化 ， 而 不 能 并 行 
执行 ， 因 为 它们 需要 对 NBSP 生 成 的 系统 配置 表 做 变 
更 ， 而 它们 之 间 又 没有 沟通 ， 所 以 为 了 避免 冲突 〔 比 
如 对 COUNT 变 量 的 更 新 ， 本 来 是 1， 我 加 了 1， 你 也 
加 了 1， 如 果 顺 着 来 结果 就 是 3， 如 果 并 行 的 话 ， 可 能 
导致 相互 覆盖 ， 结 果 可 能 是 2) ，AP 在 执行 初始 化 代 
码 时 必须 通过 访 存 网 络 获取 访问 BIOS 的 锁 。 初 始 化 代 


码 的 最 后 一 个 动作 是 让 AP 打 个 上 (CLI 关 中 断 指令 ) 
继续 睡 大 觉 (HLT 指 令 ) ， 唯 有 接收 到 INIT IPI 中 断 信 
号 之 后 才 会 继续 执行 。 


提示 > 

当 AP 再 次 醒 来 的 时 候 ， 会 发 现 另 一 番 天 地 。 此 
时 OS 已 经 载 入 ， 所 有 东西 都 准备 好 了 ， 也 正 是 OS 
里 对 应 的 多 处 理 器 初始 化 模块 代码 唤醒 的 AP。AP 
会 从 Startup IPI 消 息 中 提取 对 应 的 中 断 向 量 ， 然 后 从 
该 向 量 所 指示 的 地 址 执行 。 这 个 地 址 上 的 代码 其 实 
就 是 OS 用 于 初始 化 多 CPU 运行 环境 的 相关 代码 ， 最 
终 一 层 层 调 用 ， 所 有 CPU 会 被 载 入 idle 进 程 促 速 执 
行 ， 等 待 接收 各 种 中 断 信号 并 跳 转 至 进程 调度 器 执 
41, 最 后 执行 其 他 用 户 进程 。 


NBSP 唤 醒 AP 之 后 ，AP 一 个 一 个 地 初始 化 ， 此 时 
NBSP 会 启动 一 个 计时 器 ， 给 出 充足 的 时 间 让 所 有 AP 
初始 化 。 计 时 结束 之 后 ， 中 断 NBSP， 然 后 NBSP 继 续 
执行 后 续 逻 辑 。 

每 个 CPU 芯片 都 会 执行 上 述 过 程 。 每 个 NBSP 
初始 化 系统 的 最 后 一 步 便 是 与 其 他 正在 执行 相同 过 
程 的 CPU 芯片 经 过 QPI 通 信 ， 联 合 选举 出 一 个 SBSP 
(System Boot Strap Processor， 系 统 启动 主 核心 ) 。 
SBSP 才 是 负责 运行 BIOS 主 模块 从 而 检测 和 初始 化 整 
个 系统 (主板 ) 范围 内 的 硬件 资源 (比如 各 PCIE 设 
#) 的 角色 。 具 体 的 选举 方式 是 通过 争 抢 读 取 一 个 寄 
存 器 /计数 器 ， 这 个 特殊 设计 的 寄存 器 每 次 被 访问 ， 都 
会 自动 自行 +1， 初 始 值 为 0。 所 以 ， 如 果 哪个 NBSP 读 
到 了 0， 则 证 明 它 是 第 一 个 访问 该 寄存 器 的 核心 ， 就 
自 认 为 是 SBSP 了 。 当 其 他 NBSP 读 之 时 ， 其 值 已 经 不 
是 0 了 ， 从 而 得 知 其 他 核心 已 捷足先登 了 。 

选举 失败 的 NBSP 们 也 进入 休眠 态 ， 变 成 AP。 此 
时 系统 只 剩 下 唯一 的 一 颗 位 于 某 CPU 芯 片 内 的 SBSP 
核心 在 执行 代码 ，SBSP 开 始 执行 主 BIOS 代 码 。 这 个 
过 程 便 会 检测 和 配置 每 个 CPU 上 报 的 各 自 连接 的 内 
存 〈 这 个 信息 是 NBSP 执 行 Pre-EFI 固 件 代码 时 生成 
的 ) ， 以 及 扫描 并 初始 化 各 个 PCIE 设 备 、 生 成 中 断 
向 量 表 ， 以 及 将 QPI 做 更 精细 的 配置 ， 比 如 配置 各 种 
Message Class 对 应 的 虚拟 通道 /虚拟 网 络 ， 以 及 配置 
QPI 的 电源 管理 参数 〈 如 允许 进入 低 功 耗 模式 等 ) ， 
然后 还 需要 执行 更 精细 的 系统 拓扑 发 现 过 程 ， 包 括 
所 有 连接 到 QPI 网 络 内 的 各 个 模块 的 位 置 和 路 由 表 的 
建立 ， 最 后 将 QPI 设 置 成 全 速 运行 。 在 配置 内 存 控制 
器 的 时 候 ， 初 始 化 程序 会 在 源 地 址 解码 器 (Source 
Address Decoder, SAD) 中 生成 内 存 地 址 与 Node ID 
的 对 应 关系 ， 用 来 判断 目标 内 存 地 址 的 请 求 需要 发 
送 给 哪个 节点 ; 在 目标 地 址 解码 器 (Target Address 
Decoder, TAD) 中 生成 内 存 地 址 与 节点 内 模块 的 对 
应 关系 ， 用 来 判断 收 到 针对 某 内 存 地 址 请 求 后 应 该 发 
给 该 节点 内 的 哪个 内 存 控制 器 处 理 〈 如 果 有 多 个 内 存 
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控制 器 的 话 ) ; 以 及 SAG 寄 存 器 表 (Segment Address 
Register， 如 果 内 存 条 在 DIMM 槽 位 上 是 隔 开 插 的 ， 
这 个 表 负 责 将 不 连续 的 物理 地 址 映射 为 连续 的 逻辑 地 
址 ) ， 前 文中 提 到 过 的 地 址 交织 策略 ， 就 是 在 上 述 这 
些 寄 存 器 中 设置 的 。 

SBSP 的 最 后 一 步 便 是 调用 BIOS 中 自 带 的 存储 设 
备 驱动 程序 ， 从 启动 设备 读 入 OS Boot Loader 代 码 执 
行 ，Boot Loader 会 将 OS 代码 载 入 执行 。 在 某 一 步 ， 
OS 会 初始 化 好 每 个 核心 所 需要 的 数据 结构 、 线 程 结 
构 等 ， 并 向 所 有 AP 发 送 Startup IPI 消 息 ， 最 终 多 核 并 
行 执行 Idel 进 程 ，OS 加 载 完 毕 。 再 后 来 呢 ? 那 就 取 
决 于 用 户 的 动作 了 ， 通 过 各 种 中 断 来 触发 各 种 后 续 
逻辑 。 


6.5.4 ”QPI 的 扩展 性 


在 图 6-90 中 我 们 可 以 看 到 ， 如 果 每 个 CPU 出 4 路 
QPI 链 路 ， 同 时 还 能 保证 任意 两 点 间距 离 不 超过 一 跳 
的 话 ， 那 么 最 大 只 能 组 成 8 路 CPU 紧 耦 合 系统 。 但 是 
如 果 放 宽 要 求 ， 不 再 要 求 任意 两 点 间 最 大 一 跳 ， 那 
么 就 可 以 组 成 任意 拓扑 的 访 存 网 络 ， 比 如 最 简单 的 
二 维 Mesh， 每 个 CPU 与 其 他 4 个 CPU 互联 。 但 是 这 
种 设计 鲜 有 用 在 共享 内 存 紧 耦合 系统 中 的 ， 究 其 原 
因 ， 有 两 个 : 第 一 个 是 ， 一 旦 跳 数 过 多 ,访问 的 时 
延 就 会 过 大 ，CPU 周 期 就 会 浪费 很 多 ; 第 二 个 是 ， 
即便 每 个 CPU 可 以 使 用 一 级 和 二 级 缓存 来 加 速 内 存 
访问 ， 但 是 对 于 一 个 紧 耦 合 系统 ， 必 须 维 护 全 局 的 
缓存 一 致 性 ， 而 维护 这 种 一 致 性 是 需要 所 有 CPU 之 间 
额外 的 信息 交互 的 ， 这 种 交互 会 拖累 对 缓存 的 访问 ， 
如 果 CPU 数 量 过 多 ， 这 种 信息 交互 就 会 暴涨 。 所 以 ， 
共享 内 存 而 且 要 求 缓 存 一 致 性 的 紧 耦 合 系统 没 法 容纳 
太 多 CPU。 

目前 为 止 ， 基 于 Intel CPU 的 高 端 主机 最 大 能 够 
扩展 到 64 路 CPU 的 紧 耦 合 系统 。 对 于 这 种 大 规模 访 存 
网 络 ， 需 要 另 一 个 角色 登场 才能 解决 由 于 缓存 一 致 性 
导致 的 大 量 通信 所 带 来 的 时 延 问题 。 这 个 角色 就 是 节 
点 互联 控制 器 (Node Controller, МС) ， 如 图 6-100 
所 示 。 

NC 的 本 质 是 一 个 QPI 路 由 器 ， 将 多 个 子 网 黏合 起 
来 ， 让 多 个 子 网 之 间 可 以 互通 。 比 如 ， 多 个 4 路 CPU 
主板 可 以 连接 到 一 个 NC， 并 相互 路 由 ， 组 合成 一 个 
大 的 共享 内 存 的 访 存 网 络 。 但 是 ，NC 并 没有 解决 跳 
数 问题 ， 对 访 存 时 延 没 有 帮助 ， 反 而 是 多 了 一 跳 ， 引 
入 了 时 延 。 

还 记得 我 们 在 前 文中 提 到 过 的 嗅 探 过 滤器 
(Snoop Filter) 么 ，NC 上 有 对 应 的 装置 实现 缓存 一 致 
性 广播 过 滤 机 制 ， 能 够 避免 不 必要 的 广播 发 到 全 网 ， 
在 节约 了 QPI 带 宽 的 同时 也 降低 了 访 存 等 待 时 延 ， 
为 一 笔 Snoop 请 求 要 求 所 有 核心 都 做 回应 ， 不 必要 的 
Snoop 请 求 被 过 滤 掉 之 后 ，NC 就 可 以 直接 发 出 回应 。 
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关于 具体 是 如 何 过 滤 这 些 广播 的 ， 下 文中 会 有 关于 组 
存 一 致 性 问题 的 详细 介绍 。 


图 6-100 ”NC 示意 图 


图 6-101 为 HP 某 款 服务 器 采用 的 架构 ， 同 样 是 8 路 
CPU 系统 ， 其 并 未 使 用 CPU 直 连 的 方式 ， 而 是 采用 了 
两 个 NC 板 、 共 4 片 NC 两 两 元 余 来 连接 两 个 4 路 系统 ， 
每 个 CPU 各 出 一 路 QPI 链 路 连接 一 个 NC 芯片 ，NC 芯 
片 之 间 再 采用 QPI 链 路 互联 。 一 般 将 CPU 直 连 互 通 的 
拓扑 称 为 Glueless (EAA) 架构， 而 将 使 用 NC 黏 合 
多 个 子 系 统 的 方式 称 为 Glue( 医 合 ) 架构 。Glue 方 式 
会 增加 额外 的 成 本 ， 但 是 可 以 提高 性 能 ， 虽 然 增加 了 
每 一 笔 Snoop 流 量 的 传送 时 延 ， 却 降低 了 等 待 时 延 。 
因为 实际 环境 中 有 相当 比例 的 流量 都 是 在 处 理 缓存 一 
致 性 探查 同步 ， 所 以 NC 可 以 大 量 避 免 这 种 流量 ， 以 
臻 整体 性 能 反而 提升 。 关 于 NC 芯片 内 部 具体 实现 原 
理 ， 在 6.9.11 一 节 中 再 向 大 家 展示 。 


6.6 „ы ш sus 
构 一 


本 节 向 大 家 介绍 一 下 基于 Intel QPI 访 存 网 络 的 一 
些 高 端 多 CPU 服务 器 。 


6.6.1 某 32 路 CPU 高 端 主机 


如 图 6-102 所 示 ， 该 主机 系统 最 大 支持 32 路 CPU， 
系统 支持 8 个 主板 ， 每 个 主板 支持 4 路 CPU， 采 用 黏合 
式 架 构 ， 意 味 着 多 个 主板 之 间 星 形 连 接 到 集中 的 NC 
路 由 器 上 。 实 际 上 ， 为 了 充分 保证 性 能 和 增强 元 余 性 
从 而 提升 可 靠 性 ， 每 个 主板 上 放置 了 两 片 NC 芯 片 ，4 
路 CPU 各 出 2 路 连接 到 2 个 NC 芯片 ，NC 芯 片 被 直接 焊 
在 主板 上 ， 而 不 是 像 图 6-101 一 样 做 成 独立 的 单 板 。 
由 于 系统 规模 很 大 ， 因 此 在 NC 之 间 又 增加 了 一 层 路 
由 器 ， 被 称 为 节点 路 由 器 (Node Router，NR) 。NC 
过 滤 广 播 ，NR 则 只 管 路 由 转发 访 存 请 求 以 及 系统 底 
层 的 嗅 探 、 应 答 等 消息 。 

该 系统 主要 由 8 个 CPU 主板 、4 个 NR 板 、8 个 IO 笼 ， 
以 及 其 他 一 些 外 围 辅助 模块 组 成 ， 这 三 种 板 卡 分 别 分 布 
在 机 柜 正面 中 上 部 、 机 柜 背 面 中 上 部 、 机 柜 背 面 中 部 。 

NR 的 作用 是 黏合 多 个 NC 控 制 器 ， 如 果 不 加 NR， 
那么 16 个 NC 之 间 就 需要 两 两 互联 ， 代 价 太 高 。 而 引 
入 NR 势 必 引 入 时 延 ， 这 就 是 代价 。NR 的 本 质 其 实 就 
是 一 个 Crossbar 或 者 其 他 类 型 的 无 阻塞 交换 芯片 ， 没 
有 更 多 的 处 理 逻辑 ， 由 于 不 需要 过 滤 广 播 ， 其 设计 本 
身 并 没有 NC 复 杂 。 

图 6-103 所 示 为 内 存 板 、NR 板 以 及 系统 主板 。 目 
前 高 端 服 务 器 领域 针对 DDR RAM 普 遍 使 用 Buffer 模 式 
加 速 访问 ， 所 以 可 以 看 到 图 中 每 两 条 DIMM 就 配 有 一 
个 缓存 控制 芯片 位 于 散热 片 下 。 右 图 是 NR 板 上 的 主 
要 部 件 一 一 NR 路 由 芯片 ， 这 里 不 再 多 说 。 整 个 系统 


图 6-101 ”使 用 NC 来 粘连 两 个 4 路 系统 的 服务 器 
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图 6-102 


某 高 端 主机 系统 架构 图 


图 6-103 ИЯ 


采用 连接 器 、 插 针 形式 通过 背 板 上 的 导线 相互 连接 在 
一 起 ， 没 有 线 缆 。 

可 以 看 到 ， 主 板 右 侧 中 部 有 4 个 CPU 插座 ， 上 
方 两 颗 IOH 桥 片 在 散热 片 下 ;， 右 侧 下 部 则 是 内 存 板 
播 槽 。 主 板 左 侧 有 两 颗 NC 芯 片 ， 左 上 方 16 颗 芯片 是 
PCIE 信 号 缓冲 器 ， 其 作用 是 提高 总 线 的 驱动 能 力 。 最 
左 侧 边沿 上 有 很 多 连接 器 ， 包 括 供电 、 数 据 、 监 控 / 
控制 信号 等 ， 它 们 会 连接 到 机 柜 背 板 上 从 而 与 其 他 部 
件 相连 。 位 于 NC 芯 片 左右 两 侧 的 DIMM 插 槽 是 用 来 插 
DDR SDRAM 的 ， 这 8 根 独立 RAM 的 作用 是 用 来 存储 
用 于 过 滤 广 播 的 目录 的 ， 同 时 存储 本 地 CPU 和 远 端 其 
他 所 有 CPU 上 已 经 缓存 的 缓存 行 地 址 目录 。 对 于 NC 
的 详细 描述 请 参考 后 续 章 节 。 


6.6.2 DELLEMC 的 双 层 主板 QPI 互 联 


DELLEMC 是 服务 器 和 存储 系统 设计 领域 的 全 球 
领先 厂商 ， 其 R940 产 品 是 一 款 极 具 特色 的 产品 ，4U4 
路 CPU〔 在 服务 器 设计 领域 ，U 表 示 Unit， 每 个 高 


、NR 板 及 主板 实物 图 


度 是 4.445cm) ， 采 用 了 双 层 主板 设计 ， 可 维护 性 极 
强 ， 如 图 6-104 所 示 。 

如 图 6-105 所 示 ， 其 在 双 层 主板 之 间 采 用 QPI 线 绕 
来 接续 两 个 双 路 CPU 之 间 的 QPI 链 路 。 


6.6.3 IBM х3850/3950 X5/X6 主 机 


图 6-106 为 IBM х3850 x5 服 务 器 主板 架构 及 实物 
图 。 每 个 机 箱 可 承载 4 路 Intel Xeon CPU。 具 体 就 不 再 
描述 ， 基 于 Intel QPI 框 架 的 设计 各 家 大 同 小 异 。 

图 6-107 为 内 置 的 内 存 板 以 及 外 置 的 MAX5 内 存 扩 
展 单 元 实物 图 。 这 里 有 一 个 地 方 需要 介绍 一 下 ， 那 就 
是 对 NC 芯片 组 的 设计 和 衍生 产品 MAX5 的 创新 。NC 
的 原理 和 功能 各 家 差不多 ， 但 是 目前 只 有 IBM、HP、 
Fujitsu 以 及 国内 的 两 家 公司 拥有 自主 设计 的 Intel 体 系 
下 的 NC 芯 片 ， 所 以 ， 自 主 设计 NC 就 成 为 了 主机 厂商 
是 否 能 进入 高 端 服务 器 市 场 的 象征 。 国 内 某 公司 之 前 
曾 尝试 收购 国外 的 某 家 专门 设计 CPU 间 互 联网 络 的 公 
司 产品 而 以 失败 告终 。 


计算 机 系统 底层 架构 原理 极限 剖析 
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前 文 的 描述 中 ，NC 在 多 数 场 
多 个 2 路 或 者 4 路 系统 ， 使 其 成 为 更 高 路 的 高 端 服务 


“都 是 用 于 黏合 


目 当 于 一 个 中 转 路 上 
双 终 端 设备 直接 连接 到 路 
网 线 直 连 骨干 路 由 器 一 样 ，!! 


日 器 的 角色 。 但 是 没 人 规定 不 
昌 器 使 用 ， 这 就 像 拿 一 
时 这 人 台 PC 会 获 
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Video port 


得 最 高 的 Intemet 网 络 访问 速度 。 同 理 ， 是 不 是 也 有 可 
能 将 内 存 而 不 是 CPU 直接 连接 到 NC 芯 片 ? IBM МАХ5 
内 存 扩展 单元 就 是 这 样 一 种 设备 。 实 物 图 如 图 6-107 
右 图 所 示 ， 板 子 后 侧 有 一 个 较 大 的 芯片 位 于 散热 片 
下 ， 这 就 是 IBM 设 计 的 可 直 连 32 根 内 存 条 的 NC 芯 片 ， 


Two scalable 
memory buffers 


IBM EXA chip 


Power supply 
connectors 
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Intel Scalable 32 DIMM sockets 


Memory buffers 


Five hot-swap 
fans 


MAXS slides 
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图 6-107 ”内置 内 存 板 和 MAX5 内 存 扩 展 单元 


IBM 对 其 命名 为 EXA。 整 个 单元 的 主要 部 件 架构 如 图 
6-108 所 示 。 
External connectors 


DDR3 DIMMs 
(Two DIMMs per channel) 
DDR3 DIMMs 
(Two DIMMs per channel) 


图 6-108 MAX5 内 存 扩展 单元 架构 图 及 连接 示意 图 


既然 是 NC， 前 端 (连接 本 地 CPU 的 一 端 ) 一 定 
得 是 QPI 协 议 ， 而 后 端 (连接 到 另 一 个 NC 或 者 其 他 
部 件 ) 可 以 是 任意 协议 ， 视 连接 的 器 件 不 同 而 不 同 ， 
比如 如 果 后 端 级 联 到 另 一 片 NC， 则 两 个 NC 之 间 一 般 
是 厂商 自 定义 的 私有 协议 ， 如 果 后 端 直接 连接 到 其 他 
Intel CPU， 那 也 必须 是 QPI 协 议 。EXA 芯 片 在 前 端 利 
用 QPI 与 各 路 CPU 连接 起 来 ， 同 时 ， 利 用 芯片 内 部 集 
成 的 内 存 控制 器 连接 出 最 大 32 DIMMA FHR. WR 
理解 了 本 书 前 文中 对 QPI 的 描述 ， 就 很 容易 理解 这 个 
设计 了 ，Intel 体 系 下 的 内 存 控制 器 其 实 就 是 QPI 网 络 


上 的 一 个 消费 者 而 已 ， 这 样 ， 这 些 内 存 就 可 以 被 系统 
内 所 有 CPU 访 问 。 

图 6-109 左 上 图 为 一 个 4 路 x3850 服 务 器 利用 4 条 QPI 
线 缆 级 联 一 个 MAX5 内 存 扩展 单元 实物 图 。 前 文中 描 
述 过 ，EXA 芯 片 前 端 是 4 路 QPI 端 口 ， 后 端 则 是 EXA 
私有 协议 。 那 一 定 还 可 以 级 联 另 一 个 EXA 芯 片 了 ? 是 
的 ， 下 图 为 双 4 路 系统 + 双 MAX5 级 联 的 示意 图 。 


后 视图 
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图 6-109 ”级 联 MAX5 实 物 图 及 双 系统 + 双 MAX5 级 联 


当 不 使 用 NC 时 ,一般 厂商 不 提供 物理 分 区 支 
持 ， 虽 然 Intel QPI 控 制 器 和 交换 机 提供 了 分 区 支持 。 
服务 器 厂商 只 要 进行 对 应 的 硬件 和 BIOS 设 计 〈 主 要 是 
BIOS) 就 可 以 在 4 路 系统 里 提供 物理 分 区 支持 ， 但 是 
服务 器 厂商 几乎 都 不 这 么 做 ， 因 为 对 4 路 系统 分 区 比 
较 鸡 肋 ， 一 般 服 务 器 对 性 能 的 要 求 都 是 2 路 以 上 ， 分 
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区 也 就 只 能 分 成 2 个 区 。 但 是 ， 对 于 8 路 及 以 上 的 服务 
器 ， 分 区 就 很 有 必要 了 。 

图 6-110 为 IBM х3850/3950 X6 代 产品 前 后 视图 ， 
相对 于 X5 代 产品 ， 最 大 的 变化 在 于 所 有 主要 部 件 都 变 
成 了 模块 化 设计 ， 包 括 CPU/ 内 存单 元 、 存 储 单元 、 
IO 单元 、 供 电 单 元 。x3950 X6 实 质 上 是 两 个 x3850 系 
统 的 上 下 堆 营 ，QPI 级 联 触 点 被 设计 在 节点 中 板 上 ， 
无 须 外 置 线 缆 。x3950 支 持 分 区 ， 可 以 将 上 下 两 部 分 
机 箱 独 立 运 行 。X6 之 所 以 能 够 做 得 更 加 紧凑 以 及 模 
块 化 ， 是 因为 其 使 用 了 Intel 更 新 的 CPU 平台 IvyBridge- 


2x Storage Books, 
each 


EX， 将 PCIE 控 制 器 集成 到 了 CPU 内 部 而 不 是 上 一 代 
体系 的 IOH 独 立 芯 片 中 ， 所 以 大 大 简化 了 设计 ，IOH 
的 名 字 也 变 成 了 PCH (Platform Control Hub) ，PCH 
芯片 位 于 机 箱 内 中 板 上 。 

图 6-111 为 x3950 系 统 的 逻辑 拓扑 图 ， 除 了 CPU 
直接 出 PCIE 总 线 、IOH 变 为 PCH、QPI 连 接 器 内 置 之 
外 ， 本 质 上 与 X5 代 架构 没有 本 质 区 别 。 

图 6-112 为 X6 代 产品 的 CPU 单元 实物 图 ， 含 1 颗 
CPU， 正 反 两面 各 12 根 DIMM 插 横 。 

图 6-113 为 X6 产 品 存 储 单元 和 全 长 、 半 长 VO 单元 


图 6-111 


side cover attached 


图 6-112 


х3950 X6 产 品 主板 架构 示意 图 


Compute book with the 


ч 


X6 产 品 CPU 单元 实物 图 


Two PCIe 3.0 x8 slots for RAID-adapters 


图 6-113 X6 产 品 


的 实物 图 。 可 以 看 到 ， 存 储 单元 其 实 是 由 Raid 卡 + 各 
种 硬盘 组 成 的 ， 硬 盘 通过 连 线 被 接 入 Raid 卡 ，Raid 卡 
通过 PCIE 总 线 接 入 位 于 CPU 内 部 的 PCIE 控 制 器 。 


6.6.4 HP Superdome2 主 机 


读 到 这 里 ， 你 应 该 对 Intel 体 系 服务 器 架构 比较 熟 
悉 了 ， 所 以 先 看 抽象 架构 图 就 可 以 了 解 一 个 系统 的 
整体 架构 了 。 对 于 高 端 服务 器 ， 不 可 能 把 所 有 东西 
都 集成 到 一 个 机 箱 内 ， 其 必然 是 高 端 、 大 气 、 上 档次 
的 。 要 高 ， 板 子 自然 要 大 ， 一 个 板子 当然 不 够 ， 得 多 
个 板子 。 非 得 是 板子 么 ， 箱 子 行 不 行 ? 当然 可 以 ， 
上 文中 x3950 X6 就 是 箱子 形态 ，IBM 对 每 个 模块 称 为 
“Book”， 这 也 是 沿袭 其 对 Z 系 列 大 型 机 CPU/ 内 存单 
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Full-length МО Book ~ 7 
Operator panel with LCD screen 1 +. т 


CPU 单元 实物 图 


元 的 叫 法 。HP Superdome2 主 机 的 CPU/ 内 存单 元 称 为 
Blade (刀片 ) ， 也 确实 比 Book 更 薄 。 

图 6-114 为 SD2 主 机 的 架构 示意 图 。CPU、NC、 
IOH 这 三 大 件 自然 不 可 少 ， 不 过 Superdome2 合 得 成 本 ， 
CPU 与 NC (图 中 的 Agent) 的 数量 做 成 了 1:1; 而 且 每 
个 NC 利用 64MB 的 板 载 :DRAM (embedded SDRAM, 
前 文中 介绍 过 ) 作为 远 端 节点 数据 的 本 地 缓存 〈 图 示 
的 L4 缓 存 ) ， 具 体 可 参考 本 书后 面 介绍 NC 的 章节 ; 
再 有 ， 该 系统 没有 使 用 Intel 现 成 的 OH， 而 是 自己 做 
了 一 款 ， 并 且 不 与 CPU 直 连 ， 而 是 利用 私有 协议 连接 
到 NC 上 。 每 个 NC 芯片 内 部 集成 了 一 个 小 型 (6 口 》 
Crossbar， 用 于 在 前 端 连 接 CPU 一 侧 的 QPI 控 制 器 、2 
个 局 部 NC 之 间 、IOH 这 三 者 之 间 的 通信 。 另 外 其 还 利 
用 上 行 链 路 连接 到 外 置 的 高 密度 端口 (200) Crossbar 


возе 


130 саз (59 bid, 
4.2 G8/s ov, 31 G3/s ie) 
(2х 108 5.261/1 dA) 


Fabric: 12.5 буа (5.7 bdi, 
4з GB/s ол, 30 GB/s in] 
2х 0@5067/ дё) 


кы: 120 68/56) 
{2 x 109 28GT/ Өй) 


图 6-114 НР Sumerdoem2 主机 系统 架构 图 
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芯片 上 ， 从 而 与 其 他 Blade 以 及 I/O 扩 展柜 (图 中 的 
IOX) 互联 。 每 个 20 口 Crossbar 芯 片 做 成 一 个 板子 (被 
称 为 XFM，Crossbar Fabric Module) , 一共 4 个 ， 插 
到 机 柜 中 板 上 ，8 个 Blade 平 均 地 连接 到 这 4 个 Crossbar 
板 上 ， 从 而 能 够 利用 最 大 带宽 与 其 他 部 件 通信 。8 个 
Blade 共 支持 16 路 CPU。 每 个 Crossbar 板 预 留 4 个 端口 ， 
共 预 留 16 端 口 与 另外 一 套 16 路 系统 互联 ， 形 成 32 路 
系统 。 如 果 每 个 Crossbar 板 预 留 6 个 端口 ， 共 预 留 24 端 
口 ， 各 与 其 他 三 个 16 路 系统 互联 形成 Full Mesh 拓 扑 ， 
则 可 以 扩充 到 64 路 CPU 的 系统 。 如 图 的 右上 角 所 示 。 

IOH 芯 片 输出 5 路 8 速 的 PCIE 链 路 ， 其 中 两 个 连 
接 了 2 个 万 兆 以 太 网 控制 器 ， 每 个 控制 器 各 出 2 个 万 兆 
口 。 其 他 3 路 各 可 连接 一 个 Mezzanine 卡 〈 很 薄 的 IO 扩 
展 卡 ， 俗 称 夹层 卡 ) ， 也 就 是 每 个 Blade 本 地 可 以 插 3 
张 PCIE Mezzanine 卡 。 至 于 是 什么 卡 ， 比 如 万 兆 以 太 、 
千 光 以太、FC、IB， 取 决 于 HP 提供 什么 卡 可 选 了 。 


Mezzanine 卡 (夹层 卡 ) 专用 于 一 些 刀片 服务 
器 、 存 储 系统 、 笔 记 本 电脑 之 类 长 相 比较 出 众 的 设 
备 ， 一 般 不 使 用 标准 PCIE 插 槽 及 半 高 全 高 、 半 长 全 
长 的 标准 PCIE 卡 设计 ， 连 接 器 一 般 在 卡 的 正面 而 不 
是 侧面 ， 直 接 扣 在 主板 上 ， 子 板 与 主板 平行 ， 可 以 
节省 大 量 空间 ， 如 图 6-115 所 示 。 


4 个 XFM 


图 6-117 


图 6-116 所 示 为 整个 系统 各 个 功能 单 板 之 间 的 连接 
拓扑 。 这 里 需要 注意 的 一 点 是 ，Blade 本 身 并 不 出 任何 
可 供 外 连 的 端口 ， 上 述 提 及 的 万 光 口 、FC、IB 口 等 ， 
全 部 需要 被 引出 到 一 处 集中 输出 ， 比 如 如 果 一 个 Blade 
满 配 3 张 4 口 的 FC 卡 的 话 ， 那 么 就 会 被 引出 4 个 万 兆 口 

(由 2 个 原生 板 载 万 兆 以 太 网 控制 器 输出 )+12 个 FC 口 ， 
所 有 LO 端口 都 被 引出 到 一 个 或 者 多 个 独立 的 VO 导向 模 
块 上 ， 然 后 所 有 Blade 的 IO 端口 统一 从 导向 模块 输出 。 

Superdome Blade 


16 CPUs, 64 cores, 128 threads, 
2 ТВ Memory (8GB DIMMs), 
32 10GbE, 24 Mezz IO 


46-116 НР Sumerdoem2 主机 系统 主板 架构 图 
图 6-117 为 Superdome2 主 机 的 前 后 视图 。IO 导 向 


CPU/ 内 存 Blade 


HP Sumerdoem2 主机 的 前 后 视图 


模块 有 两 种 类 型 ， 一 种 是 直通 模块 ， 外 表 看 上 去 像 
是 交换 机 ， 实 则 不 是 ， 本 质 上 是 一 个 端口 板 ， 相 当 
于 把 每 个 Blade 上 该 有 的 IO 端口 导向 到 这 里 集中 摆 放 
而 已 ， 后 端 Blade 出 多 少 个 口 ， 导 向 模块 就 放 多 少 个 
口 ， 所 以 称 为 IO 导向 模块 。 第 二 种 类 型 是 内 置 交换 
芯片 的 模块 ， 所 有 Blade 出 的 端口 通过 系统 中 板 与 交 
换 芯 片 连接 ， 然 后 芯片 出 多 个 上 行 〈 外 置 ) 端口 ， 用 
于 级 联 到 外 部 交换 机 上 。 
图 6-118 所 示 为 1O 导 向 模块 的 实物 图 及 几 个 典型 
的 模块 。 图 中 的 24 口 以 太 交 换 机 外 部 只 有 4 个 口 ， 是 
因为 剩余 的 16 个 口 其 实 是 通过 系统 中 板 与 Blade 输 出 
以太 口 对 接 了 ， 所 以 看 不 到 。 利 用 交换 模块 的 好 处 
是 可 以 节省 大 量 的 线 缆 ， 无 须 每 个 端口 都 连 线 到 外 置 
的 集中 交换 机 了 ， 只 需 用 上 行 口 级 联 即 可 。 

图 6-119 为 Blade 实 物 图 。 终 于 轮 到 主角 登场 了 ， 但 
是 怎么 感觉 Blade 反 而 不 是 主角 了 ， 配 角 更 值得 研究 。 


图 6-119 
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图 中 的 SX3000 是 HP 研发 的 芯片 组 ， 包 括 IOH 和 NC。 左 
上 和 角 两 颗 为 NC 〈 详 见 后 文 ) ，Mezz 表 示 Mezzanine 卡 
连接 器 。 下 方 是 Scalable Memroy Buffer 及 DIMM。 

图 6-120 所 示 为 系统 中 板 及 XFM 模 块 ， 也 就 是 
Crossbar 模 块 的 实物 图 ，XFM 模 块 除了 用 连接 器 与 中 
板 相 连 互 通 各 个 Blade 之 外 ， 前 面 还 有 外 置 接口 用 于 
连接 IOX 扩 展 单元 及 级 联 到 另 一 套 16 路 系统 。 

图 6-121 为 IOX 扩 展 模块 ， 其 内 部 有 两 个 HP 自己 
设计 的 IOH 芯 片 ， 内 含 Crossbar 控 制 器 。Crossbar 控 制 
器 前 端 上 联 到 Crossbar 集 中 模块 ， 后 端 则 扩展 出 PCIE 
控制 器 ， 两 片 IOH 各 自 出 6 个 PCIE 插 槽 。 图 6-117 左 下 
角 所 示 的 整 机 柜 实物 图 中 机 柜上 半 部 分 放置 的 就 是 多 
人 台 IOX， 使 用 Crossbar 专 用 线 缆 连 接 到 XFM 模 块 上 。 

HP Superdome2 支 持 多 个 分 区 ， 最 小 分 区 粒度 为 1 
个 Blade。 另 外 ， 还 通过 软件 Hypervisor 的 形式 支持 更 
细 粒 度 的 虚拟 机 。 
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图 6-120 НР Sumerdoem2 系统 中 板 及 XFM 模 块 


4U Enclosure 


1. Two МО boys each with ó 
PCle slots 
2. 2 IOHs—]1 per МО boy 


3. Crossbor Fabric connectors 


4. нон manageability 


图 6-121 HP Sumerdoem2 IOX 扩 展 模块 


6.6.5 Fujitsu PQ2K 主 机 器 ， 读 者 此 时 应 该 已 经 练 就 了 一 番 火 眼 ， 看 待 任何 机 
器 可 以 应 丁 解 牛 并 且 泰 然 自若 了 。4 个 刀片 每 刀片 2 

Fujitsu PrimeQuest2K 〈 这 里 简称 为 PQ2K) 主机 路 ， 共 8 路 CPU，Glueless 设 计 ， 所 以 没有 NC。 
是 一 款 最 大 支持 8 路 Intel x86 CPU 的 系统 。 图 6-122 为 图 6-123 为 单个 刀片 的 内 部 示意 图 ， 其 使 用 了 一 张 
PQ2K 主 机 的 前 后 视图 。 经 过 了 前 文中 介绍 的 那些 机 “标准 PCIE Raid 卡 连接 4 块 硬盘 。 系 统 支持 物理 分 区 ， 最 


System Board Power Supply Unit 
(58) (PSU)/FAN 


10 Unit (100) 


Disk Unit (DU) 


Front Rear 


图 6-122 ”PrimeQuest2K 主 机 的 前 后 视图 
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图 6-123 


小 1 个 刀片 ， 不 同 物理 分 区 可 以 使 用 不 同型 号 的 CPU。 
右 图 为 控制 管理 模块 ， 支 持 远程 IPMI 协 议 管理 。 

图 6-124 为 插 在 主机 箱 背 面 的 VO 模块 实物 图 ， 每 
个 IO 模块 中 又 可 以 插入 多 个 PCIE 板 卡 。IO 模 块 主板 
上 包含 2 个 IOH 桥 片 ， 通 过 系统 中 板 与 CPU 刀片 相连 从 
而 接 入 QPI 网 络 。 

图 6-125 左 图 为 磁盘 单元 的 实物 图 ， 系 统 主机 箱 
前 面 可 以 竖 插 两 个 磁盘 单元 ， 每 个 磁盘 单元 可 以 容纳 
4 块 2.5 寸 盘 ， 并 可 容纳 两 块 Raid 卡 。Raid 卡 前 端 与 IO 
模块 对 连 ， 相 当 于 Raid 卡 本 来 可 以 插 到 IO 模块 中 的 ， 
但 是 考虑 到 连接 磁盘 不 方便 ， 所 以 将 Raid 卡 放 在 离 硬 
盘 近 的 地 方 ， 再 通过 系统 中 板 将 Raid 卡 的 PCIE 针 脚 


刀片 内 部 实物 图 及 管理 模块 实物 图 


与 IO 单 元 中 的 IOH 针 脚 连接 起 来 。 右 图 为 IO 扩展 单 
元 ， 可 以 插入 更 多 的 PCIE 设 备 ， 不 过 它 与 主机 箱 中 的 
LO 模块 之 间 必 须 使 用 PCIE 线 缆 相 连 了 。 

正 是 因为 有 了 这 些 扳手 铜 技 术 ， 才 会 让 IBM、 
HP、Fujitsu 等 专业 主机 厂商 脱颖而出 。 相 比 其 他 厂商 
来 讲 ， 后 者 仅仅 是 按照 Intel 的 设计 和 Intel 提 供 的 芯片 
把 板子 和 箱子 造 起 来 ， 其 技术 含量 仅 体现 在 制造 工艺 
上 ， 而 前 面 三 家 厂商 其 技术 含量 不 仅 体现 在 制造 工艺 
上 ， 更 多 体现 在 其 芯片 组 设计 和 产品 差异 化 上 。 性 能 
自然 不 在 话 下 ， 虽 然 用 的 同一 家 的 CPU， 但 是 由 于 芯 
片 组 设计 不 同 ， 其 性 能 自然 也 不 同 ， 当 然 了 ， 价 格 也 
不 同 。 


图 6-124 LO 模块 实物 图 


图 6-125 ”磁盘 单元 的 实物 图 及 LO 扩展 单元 
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6.7 理解 多 核心 访 存 时 空 一 致 性 
问题 


冬瓜 哥 的 思维 终于 运行 到 了 本 章 的 尽头 ， 你 们 的 
呢 ? 不 知道 是 在 回味 中 ， 还 是 已 经 迫不及待 地 站 在 这 
里 等 待 着 这 肩 门 最 终 被 打开 ? 我 们 很 早 就 勾 起 了 缓存 
一 致 性 这 个 话题 ， 在 做 了 太 多 的 铺垫 之 后 ， 终 于 到 了 
该 解 开 其 神秘 面纱 的 时 候 了 。 现 在 ， 所 有 核心 、 缓 存 
以 及 SDRAM 内 存 都 通过 某 种 网 络 互 相连 接 了 起 来 。 
可 以 预先 告诉 你 的 是 ， 你 将 会 打开 一 个 潘多拉 魔 盒 ， 
进入 到 一 个 让 你 可 能 需要 理解 很 长 时 间 才 能 参透 的 一 
个 分 支 领域 。 

前 文 所 述 的 QPI 链 路 ， 其 具有 如 此 高 的 带宽 ， 用 
于 CPU 与 IJO 桥 之 间 通 信 ， 这 很 好 理解 ， 因 为 CPU 需要 
与 外 部 IO 设备 互 传 数据 ， 但 是 为 何 CPU 之 间 也 需要 
这 么 高 的 带宽 ? 前 文 也 讲述 了 一 些 CPU 之 间 通 信 的 例 
子 ， 比 如 启动 过 程 中 ，NBSP/SBSP 需 要 使 用 各 种 IPI 
信号 来 唤醒 AP，IPI 请 求 当然 得 通过 QPI 网 络 传送 ; 
OS 运行 之 后 ， 也 需要 CPU 使 用 IPI 来 向 其 他 CPU 分 配 
或 者 转移 线程 。 这 样 看 来 ， 貌 似 CPU 之 间 传输 的 只 是 
一 些 细碎 的 中 断 消息 ， 不 需要 太 高 的 带宽 ， 只 需要 
低 时 延 即 可 ， 那 么 QPI 链 路 动 四 每 秒 几 十 吉 字 节 的 带 
宽 ， 何 用 ? 实际 上 ，CPU 之 间 的 IPI 消 息 只 占 了 很 小 一 
部 分 ， 大 部 分 链 路 带宽 都 被 缓存 一 致 性 探查 和 相互 同 
步 缓存 数据 给 占用 了 。 

在 继续 思考 之 前 ， 我 们 得 先 弄 清楚 “为 什么 多 
个 线程 会 同时 访问 同一 个 变量 ”， 如 果 多 线程 永远 都 
不 同时 访问 同一 个 地 址 ， 那 会 缘 大 欢喜， 就 像 两 台独 
立 计 算 机 ， 老 死 不 相 往来 也 没什么 问题 。 但 是 现实 中 
却 不 是 这 样 ， 比 如 ， 有 10 万 条 数据 需要 处 理 ， 为 了 提 
升 性 能 ， 采 用 10 个 线程 并 发 处 理 。 为 此 ， 需 要 采用 了 
一 个 变量 来 记录 所 有 线程 处 理 到 这 10 万 条 数据 中 的 哪 
一 条 了 ， 该 变量 初 值 为 0。 当 某 个 线程 要 处 理 数据 之 
前 ， 先 读 出 该 变量 的 值 ， 假 设 当前 值 为 "， 将 该 变量 
值 +1， 即 n+1， 然 后 去 处 理 对 应 数据 ， 即 第 n+1 条 数 
据 ， 处 理 完 了 再 来 更 新 该 变量 ， 一 直到 该 变量 值 为 10 
万 为 止 。 每 个 线程 都 做 同样 的 事情 ， 所 以 会 共享 访问 
该 变量 。 

不 过 ， 上 述 程序 可 以 通过 优化 而 避免 使 用 共享 变 
量 ， 比 如 人 为 静态 分 割 ， 线 程 1 处 理 第 0 一 9999 这 一 万 
条 数据 ， 线 程 2 处 理 第 10000 一 19999 这 一 万 条 ， 以 此 
类 推 。 给 每 个 线程 初始 化 各 自 的 计数 变量 ， 然 后 用 for 
循环 来 控制 ， 这 样 就 可 以 做 到 每 个 线程 各 干 各 的 ， 线 
程 2 不 会 去 动 线程 1 的 数据 ， 反 之 亦 然 。 这 样 做 性 能 会 
非常 好 ， 而 且 可 以 实现 总 体 性 能 随 着 核心 数量 增加 而 
线性 增长 。 虽 然 如 此 ， 但 是 有 些 场景 使 用 共享 变量 会 
让 程序 逻辑 更 加 简单 便捷 ， 所 以 共享 变量 是 程序 员 们 
的 普遍 诉求 ， 必 须 支 持 。 

然而 ， 一 切 皆 因此 而 起 ， 从 此 江湖 便 没 有 了 平 


静 。 你 可 知 为 了 满足 你 的 这 个 小 小 的 要 求 ， 底 层 都 发 
生 了 什么 ? 


6.7.1 访 存 空间 一 致 性 问题 


大 家 可 能 听 说 过 平行 宇宙 理论 ， 该 理论 认为 每 
一 次 事件 选择 都 会 引发 一 个 空间 分 支 ， 形 成 另 一 个 空 
间 独 立 发 展 。 缓 存 的 存在 会 导致 这 种 平行 空间 问题 ， 
RAM 中 某 个 地 址 A 上 的 数据 a， 可 能 会 被 同时 缓存 到 
核心 1 的 缓存 1 和 核心 2 的 缓存 2 中 ， 初 始 时 刻 两 个 缓存 
中 该 地 址 的 值 可 能 还 是 a，RAM、 缓 存 1、 绥 存 2 这 三 
个 空间 是 一 致 的 。 但 是 随后 缓存 2 中 该 地 址 的 值 a 被 核 
心 2 更 改 为 值 b， 此 时 便 出 现 了 两 个 数值 版 本 ， 核 心 
1 如 果 继 续 使 用 缓存 1 中 的 a 做 计算 ， 取决 于 程序 的 多 
辑 ， 十 有 八 九 会 出 错 ， 除 非 程序 逻辑 决定 了 用 a 或 者 b 
来 计算 都 无 所 谓 ， 或 者 读 到 的 值 并 不 是 拿 来 做 算术 运 
算 的 ， 而 是 去 实现 某 种 控制 的 (如 果 只 是 个 把 数值 算 
错 了 还 好 ， 如 果 是 控制 路 径 错 误 ， 通 常 容易 引发 更 加 
毁灭 性 的 结果 ) ， 也 有 可 能 会 容忍 短 时 间 内 得 不 到 最 
新 的 值 并 不 会 导致 错误 。 但 是 ， 多 数 程序 场景 下 都 不 
能 容忍 这 种 在 空间 上 产生 的 不 一 致 问题 。 

所 以 ， 为 了 实现 空间 一 臻 性， 必须 将 新 生成 的 数 
据 同 步 广 播 到 其 他 的 缓存 中 去 。 这 又 产生 一 个 思考 : 
将 缓存 2 中 的 b 同 步 到 缓存 1 的 过 程 也 是 需要 时 间 的 ， 
无 法 做 到 0 时 延 ， 所 以 ， 核 心 1 如果 在 新 数据 没 到 来 之 
前 就 从 缓存 1 中 取出 了 该 地 址 的 数据 ， 那 么 取出 的 将 
是 a 而 不 是 b， 依 然 可 能 导致 计算 错误 。 既 然 这 样 ， 将 
数据 同步 来 同步 去 的 意义 何在 ? 同步 时 延 问题 是 一 道 
无 法 逾越 的 鸿沟 ， 程 序 员 必须 接受 ， 而 且 可 以 采用 其 
他 方法 保证 程序 执行 的 时 序 正确 性 ， 比 如 互 斥 锁 、 同 
步 屏障 等 机 制 (下 文中 将 会 介绍 ) ， 但 是 并 不 能 因 嘲 
废 食 而 放任 多 个 缓存 形成 多 个 版 本 的 平行 空间 进而 独 
立 形成 分 支 ， 这 是 不 符合 历史 观 的 ， 这 种 分 支 发 展 完 
全 不 受 控制 ， 程 序 是 无 法 容忍 这 种 逻辑 错误 的 。 

使 用 硬件 机 制 来 确保 所 有 核心 都 运行 在 同一 个 
不 存在 ， 或 者 说 短 时 间 内 最 终 不 会 存在 多 个 平行 副本 
的 空间 里 ， 是 程序 员 希 望 看 到 的 事情 。 目 前 ， 所 有 的 
商用 多 核心 CPU 无 一 例外 都 支持 硬件 保障 的 缓存 一 致 
性 (cache coherency) 。 缓 存 一 致 性 仅仅 指 空间 一 致 
性 ， 并 不 表示 时 序 一 致 性 。 实 现 了 缓存 数据 同步 ， 也 
仅仅 是 实现 了 带 有 延迟 的 空间 一 致 性 ， 至 于 这 个 延迟 
有 多 大 ， 无 法 预知 。 比 如 有 8 个 核心 的 8 份 独立 私有 缓 
存 ， 各 自 运行 了 一 个 线程 ， 访 问 某 共 享 变量 ， 其 中 一 
个 核心 更 新 了 该 变量 ， 如 果 还 需要 把 这 个 变量 同时 发 
送 给 其 他 7 个 核心 ， 那 么 这 7 个 核心 看 到 该 变量 最 新 值 
也 是 有 先后 顺序 的 ， 这 取决 于 它们 与 发 送 数据 的 核心 
的 距离 以 及 其 他 相关 因素 。 

不 管 有 没有 缓存 ， 延 迟 问题 导致 的 时 序 一 致 性 
问题 总 是 存在 的 ， 时 序 问 题 与 缓存 的 存在 并 无 直接 联 
系 。 缓 存 的 存在 只 是 在 原本 的 时 序 问题 上 又 增加 了 空 


间 版 本 不 一 致 问题 ， 所 以 ， 必 须 先 把 空间 问题 解决 掉 
之 后 ， 再 解决 时 序 问 题 ， 否 则 毫 无 意义 。 空 间 一 致 性 
问题 涉及 的 机 制 非常 复杂 ， 有 具体 的 解决 办 法 在 下 文中 
再 做 介绍 。 

访 存 时 序 一 致 性 又 被 称 为 Memory Consistency, 
访 存 空间 一 致 性 又 被 称 为 Memory Coherency， 但 是 空 
间 一 致 性 问题 都 是 由 缓存 的 存在 而 导致 的 ， 所 以 又 特 
指 缓存 一 致 性 Cache Coherency。 这 里 有 个 疑问 ， 同 
一 个 地 址 的 数据 也 有 可 能 在 不 同 核心 内 部 的 寄存 器 里 
生成 多 个 副本 ， 即 便 没 有 缓存 ， 也 是 存在 一 致 性 问题 
的 啊 ! 这 里 需要 深刻 理解 一 个 更 加 本 质 的 问题 ， 那 就 
是 核心 内 部 的 流水 线 寄存 器 只 是 用 来 暂 存 数据 的 ( 缓 
її) ， 而 不 是 缓存 数据 的 。 对 于 缓冲 ， 寄 存 器 中 的 数 
据 一 定 会 在 一 个 最 多 几 个 时 钟 周期 内 就 被 搬移 到 外 部 
存储 器 中 存放 ， 只 有 搬出 去 之 后 ， 其 他 核心 才能 看 得 
到 ， 所 以 其 本 质 上 导致 的 是 时 序 问 题 ， 而 不 是 故意 产 
生 的 空 序 问题 ， 而 缓存 则 不 同 ， 其 是 有 目的 地 将 外 部 
存储 器 中 的 数据 在 相当 一 段 时 间 内 保持 在 自己 这 里 ， 
如 果 不 去 有 意识 地 将 更 新 同步 到 其 他 核心 的 缓存 ， 就 
会 产生 空 序 问题 。 

下 面 我 们 先 来 介绍 一 下 这 个 头疼 的 时 序 一 致 性 问 
题 的 各 种 场景 以 及 对 应 的 解决 办 法 ， 然 后 再 介绍 空间 
一 致 性 问题 的 解决 办 法 。 


6.7.2 ” 访 存 时 间 一 致 性 问题 


时 间 一 致 性 问题 ， 或 者 说 时 序 问 题 ， 对 于 人 脑 
来 讲理 解 起 来 比较 困难 。 我 们 先 假定 不 存在 空间 一 
致 性 问题 ， 也 就 是 CPU 内 部 没有 任何 缓存 存在 ， 任 
何 访 存 请 求 都 必须 访问 SDRAM， 而 RAM 是 被 多 个 
CPU 平 等 共享 访问 的 ， 虽 然 RAM 可 能 被 分 成 多 块 挂 
接 在 不 同 CPU 芯 片上 ， 但 是 它们 依然 是 全 局 统一 路 由 
的 共享 存储 器 。 在 这 个 场景 下 ， 所 有 CPU 在 任何 时 刻 
都 会 看 到 一 模 一 样 的 RAM 数 据 ， 任 何 一 个 CPU 对 任 
何 一 个 RAM 地 址 处 数据 的 更 改 ， 其 他 CPU 在 下 次 访 
存 时 ， 按 理 说 ， 应 该 必然 会 看 到 。 然 而 ， 事 实 却 非常 
复杂 。 


6.7.2.1 延迟 到 达 导致 的 错乱 


CPU 内 部 是 个 大 工厂 ， 就 算 没 有 缓存 ， 起 码 也 会 
有 各 级 寄存 器 ， 数 据 被 载 入 到 CPU 内 部 运算 ， 然 后 输 
出 结果 某 个 RAM 地 址 处 的 某 个 变量 数据 被 核心 载 入 之 
后 ， 在 经 过 运算 部 件 之 后 ， 很 有 可 能 会 被 更 改 为 不 同 
的 值 ， 暂 存在 流水 线 某 一 级 的 寄存 器 中 ， 处 于 尚未 写 
入 RAM 或 者 正在 被 写 入 RAM 的 路 径 上 某 个 寄存 器 的 
状态 。 而 正当 此 时 ， 另 一 个 核心 尝试 加 载 该 地 址 的 数 
据 ， 其 访 存 请 求 被 发 送 到 RAM， 结 果 取 回 了 旧 数据 ， 
导致 程序 看 到 的 事物 不 符合 历史 因果 关系 。 图 6-126 
为 数据 延迟 到 达 导致 错乱 的 示意 图 。 
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核心 3 
其 他 代码 
Load 地 址 b 寄存 器 A 
Load 地 址 a 寄存 器 B 
图 6-126 ”延迟 到 达 导致 的 错乱 示意 图 


核心 1 向 地 址 a 写 入 数值 100。 由 于 多 个 核心 之 间 
的 距离 不 同 ， 这 里 假设 100 被 传送 到 了 核心 2 的 缓存 ， 
但 是 尚未 抵达 核心 3 的 缓存 。 在 此 期 间 ， 核 心 2 已 经 从 
地 址 a 获 取 了 100 这 个 数值 并 存 入 寄存 器 A， 接 着 执行 
到 了 将 200 存 入 地 址 b 这 一 步 ， 由 于 核心 2 与 核心 3 相隔 
较 近 ， 因 而 及 时 地 将 200 传 送 到 了 核心 3 的 缓存 。 同 
时 ， 核 心 3 刚刚 执行 到 将 数据 从 地 址 b 载 入 到 寄存 器 A 
这 一 步 ， 其 载 入 的 是 最 新 的 值 200〔 被 核心 2 传送 过 来 
的 ) ， 但 是 此 时 ， 核 心 1 生 成 的 100 这 个 数值 尚未 到 
达 核 心 3， 因 为 它们 相隔 实在 是 太 远 了 ， 网 络 跳 数 太 
多 。 此 时 ， 核 心 3 执行 了 从 地 址 a 载 入 数据 到 寄存 器 B 
这 一 步 ， 拿 到 了 地 址 a 上 的 旧 数 据 。 此 时 ， 核 心 2 看 到 
了 新 a， 核 心 3 看 到 了 新 b 却 看 到 了 旧 a， 而 核心 2 是 拿 
到 新 a 之 后 才 把 新 b 传 送 给 核心 3 的 ， 核 心 3 却 看 到 了 将 
来 ， 而 丢失 了 历史 。 

这 里 牵扯 到 一 个 问题 ， 就 是 在 一 个 分 布 式 系统 
中 ， 某 个 节点 生成 的 最 新 数据 ， 会 过 多 久 才 被 其 他 节 
点 观测 到 ? 无 疑 ， 这 个 时 延 最 小 值 是 两 个 核心 之 间 的 
距离 除 以 光速 ， 结 果 不 是 0， 但 是 数值 会 非常 小 ， 为 
皮 秒 级 。 这 种 时 序 一 致 性 问题 被 称 为 延迟 到 达 错乱 。 
如 果 所 有 的 更 新 都 能 够 在 “瞬间 ”让 所 有 节点 观测 
到 、 获 取 到 ， 就 比较 理想 了 。 然 而 ， 这 看 上 去 根本 
无 法 实现 ， 因 为 即便 是 光速 ， 也 是 有 限 值 ， 做 不 到 0 
延迟 。 

其 实 ，0 延 迟 是 个 伪 命 题 ， 如 果 宇 宙 中 存在 0 延 
迟 ， 那 么 时 间 将 会 静止 ， 空 间 中 的 事物 也 不 再 变化 。 
因为 时 间 指 的 就 是 一 种 先后 顺序 ， 有 了 先后 顺序 才能 
感受 到 事物 的 变化 ， 才 有 因 和 果 。 如 果 0 延 迟 ， 则 因 
果 会 混为一谈 ， 分 不 清 谁 是 因 谁 是 果 ， 谁 导致 了 谁 。 
量子 是 世界 存在 的 一 个 最 小 变化 单位 ， 正 因 如 此 ， 让 
速度 变 得 有 限 ， 事 物 才 会 演化 。 

同 理 ， 由 于 数字 电路 是 靠 时 钟 来 驱动 的 ， 因 而 
其 “量子 ”就 是 一 个 时 钟 周期 (更 精确 地 来 讲 是 逻辑 
门 电 路 内 部 一 个 开关 的 通 断 时 间 ) ， 在 每 个 时 钟 周期 
里 ， 电 路 的 输入 、 输 出 变化 一 次 。 一 个 时 钟 周期 相 比 
光速 级 别 而 言 还 是 很 大 的 ， 正 因 如 此 ， 在 工程 上 、 理 
论 上 是 可 以 消除 延迟 达到 错乱 的 ， 但 性 能 会 非常 差 。 
要 在 一 个 时 钟 周期 内 完成 数据 同步 ， 就 不 得 不 降低 时 
钟 频率 ， 因 为 数据 同步 是 需要 一 定时 间 的 ， 比 如 数 十 
纳 秒 ， 那 么 时 钟 频率 就 只 能 到 几 十 上 百 兆 赫 效 了 。 


6.7.2.2 访问 冲突 导致 的 错乱 
假设 即便 我 们 使 用 了 某 种 方法 真 的 实现 了 数据 的 


核心 2 
Load Ња SESA 
Stor_i 200 地 址 b 


核心 1 


Stor_i 100 地 址 a 


9 大 话 计算 机 一 一 计算 机 系统 底层 架构 原理 极限 剖析 


0 延迟 同步 ， 解 决 了 延迟 到 达 乱 序 问 题 ， 如 果 两 个 核 
心 同 时 发 起 对 某 个 地 址 的 更 改 操作 ， 它 们 都 瞬间 把 自 
己 的 新 值 广播 给 所 有 其 他 核心 ， 那 么 这 份 数据 最 终 是 
什么 状态 ， 到 底 算 谁 的 呢 ? 另外 ， 很 多 存储 器 ， 包 括 
缓存 、RAM 等 ， 都 有 多 个 读 写 端口 ， 同 一 个 缓存 行 
或 者 字 节 可 以 同时 被 输出 到 多 个 端口 、 被 多 个 节点 拿 
到 ， 但 是 对 于 写 入 数据 ， 如 果 多 个 节点 从 多 个 端口 同 
时 发 起 写 怎么 办 ? 到 底 写 哪 一 份 数 据 ? 

如 图 6-127 所 示 的 程序 逻辑 ， 两 个 运行 在 不 同 核 
心 上 的 线程 都 尝试 对 同一 个 变量 做 +1 操 作 ， 程 序 员 
期 望 的 结果 是 ， 任 何 一 个 线程 都 需要 在 对 方 线程 的 最 
新 结果 之 上 +1， 如 果 使 用 了 缓存 ， 那 么 首先 需要 保 
障 缓存 的 空间 一 致 性 ， 即 每 个 线程 的 结果 都 需要 同步 
到 对 方 核心 的 缓存 中 ， 这 是 前 提 。 但 是 这 个 同步 过 程 
是 有 延迟 的 ， 所 以 在 此 基础 上 还 需要 解决 时 序 问题 ， 
也 就 是 让 某 个 核心 更 新 的 数据 在 达到 其 他 核心 之 前 其 
他 核心 不 能 访问 该 数据 。 硬 件 虽然 可 以 保证 缓存 空间 
一 致 性 ， 但 是 并 不 保证 某 个 核心 更 新 的 数据 立即 就 被 
其 他 核心 看 到 。 这 里 一 定 要 深刻 理解 这 个 问题 。 不 要 
天 然 地 认为 “硬件 能 够 保证 所 有 核心 看 到 一 模 一 样 的 
数据 ”， 这 个 说 法 是 错误 的 ， 硬 件 只 能 保障 “最 终 
(eventually) 的 空间 一 致 性 ”， 也 就 是 在 延迟 不 确定 
的 时 间 之 后 ， 更 新 会 被 同步 到 所 有 的 核心 。 具 体 保障 
时 序 一 致 性 的 办 法 我 们 下 文 再 介绍 。 


核心 1 核心 2 
Load 地 址 a 寄存 器 A Load 地 址 a 寄存 器 A 
Inc RFRA Inc 寄存 器 A 
Stor 寄存 器 A 地 址 a Stor 寄存 器 A 地 址 a 


图 6-127 分 支 预测 导致 的 错乱 示意 图 


上 述 时 序 问题 被 称 为 访问 冲突 。 如 何 解 决 ? 下文 
中 介绍 。 可 以 想象 ， 必 须 用 某 种 手段 将 多 个 同时 发 生 
的 访问 串 行 化 ， 要 么 你 先 我 后 ， 要 么 我 先 你 后 。 访 问 
冲突 又 得 细 分 一 下 ， 比 如 同时 写 、 同 时 读 、 同 时 既 读 
又 写 ， 这 些 都 要 解决 。 


6.7.2.3 ”提前 执行 导致 的 错乱 


前 文中 我 们 提 到 过 ， 异 构 多 核心 (AMP) 架构 
下 有 一 种 工作 机 制 是 : 主 控 核心 将 需要 处 理 的 数据 
指针 、 处 理 方式 等 描述 结构 写 入 到 RAM 某 个 地 址 段 
中 ， 并 将 该 地 址 段 的 基地 址 指针 写 入 到 变量 Q 中 保 
存 ， 再 初始 化 一 个 变量 P， 每 当主 控 生 成 了 一 个 新 任 
务 需要 处 理 时 ， 就 向 P 变 量 中 +1。 另 外 某 个 核心 不 停 
地 读 取 变 量 P， 并 判断 本 次 读 取 的 P 值 与 上 次 读 取 的 
是 否 不 同 : 如 果 不 同 ， 则 证 明 主 控 核心 又 下 发 了 一 个 
新 任务 ， 则 去 读 取 变 量 Q 获 取 任务 所 在 的 位 置 ， 进 行 
处 理 ， 如 果 相 同 ， 证 明 主 控 核心 没有 下 发 新 任务 ， 则 
继续 循环 地 读 取 P 做 同样 的 判断 工作 。 上 述 工作 机 制 


可 以 用 图 6-128 所 示 的 时 序 来 描述 〈 图 中 的 OP 表示 Old 
Р, РЇЇНЇН) 。 
核心 1 
其 他 代码 
Stor 任务 指针 МО 

Inc ЕР 


核心 2 
其 他 代码 

Load 地址 P。 寡 存 器 A 
Load ”地 址 OP 寄存 器 B 


其 他 代码 Стр ВИТА 寄存 器 B 


Jmpz_b 3 
Load НО ЗНС 
其 他 代码 

图 6-128 分支 预测 导致 的 错乱 示意 图 


假设 核心 2 的 分 支 预测 单元 预测 分 支 为 不 跳 转 ， 
则 流水 线 会 猜测 执行 Load 地 址 Q 寄存 器 C 语 句 。 假 设 
此 时 核心 1 还 没有 执行 到 Stor 任务 指针 地 址 Q 这 一 行 
上 ，Q 处 还 是 旧 值 ， 那 么 核心 2 提前 猜测 分 支 并 执行 了 
代码 ， 拿 到 了 Q 的 旧 值 ， 存 入 保留 站 。 假 设 此 时 核心 2 
还 没有 执行 到 Load 地 址 P 寄存 器 A 语句 ， 而 核心 1 已 经 
执行 到 了 Inc 地 址 P 语 句 ， 并 且 及 时 将 P 的 新 值 传送 到 
了 核心 2 的 缓存 ， 然 后 核心 2 执行 了 Load 地 址 P 寄存 器 
A 语 句 拿 到 了 P 的 新 值 ， 经 过 Cmp 语 句 判断 之 后 发 现 的 
确 不 需要 跳 转 ， 之 前 的 分 支 预测 是 正确 的 ， 那 么 已 经 
提前 载 入 的 Q 就 不 会 被 作废 ， 将 被 继续 使 用 ， 从 而 产 
生 了 错误 。 

如 果 分 支 预测 被 证 明 是 错误 的 ， 那 么 这 个 错乱 
就 不 会 发 生 ， 因 为 流水 线 冲 刷 会 将 之 前 载 入 的 Q 值 删 
掉 ， 不 会 再 使 用 。 

可 以 看 到 ， 这 个 问题 其 实 是 跨 核心 产生 了 RAW 相 
Ж: Load 地 址 Q 寄存 器 C 语 句 属于 Read， 运 行 在 核心 
2; Stor 任务 指针 地 址 Q 语 句 属于 Write， 运 行 在 核心 
1。 而 每 个 核心 只 能 判断 运行 在 自己 内 部 的 代码 序列 
是 否 有 RAW 相关 ， 哪 能 管 得 到 其 他 核心 上 的 某 个 指令 
与 自己 是 否 有 RAW 相关 呢 ? 这 就 是 产生 问题 的 原因 。 
这 个 问题 的 解决 办 法 同样 放 在 下 文中 一 起 介绍 。 可 以 
想象 的 是 ， 如 果 把 核心 2 的 上 述 这 段 代码 整体 延迟 到 
核心 1 代码 执行 完了 再 执行 ， 并 增加 一 些 细节 处 理 ， 
让 它们 在 不 同 的 核心 上 也 实现 有 先 有 后 的 串 行 化 执 
行 ， 是 不 是 就 可 以 保证 时 序 了 呢 ? 


6.7.2.4 乱 序 执行 导致 的 错乱 


核心 1: 其 他 代码 ;Stor_i 100 地 址 a ; Load 地 址 b 寄 
FEA 其 他 代码 ; 

核心 2。 其 他 代码 ;Stor_i 200 地 址 b; Load 地 址 a 寄存 
ВА; 其 他 代码 ; 


看 一 下 上 述 指令 序列 。 对 于 核心 1 和 核心 ?来 讲 ， 
它们 各 自 的 两 条 指令 之 间 完 全 没有 RAW 关系 ， 所 以 可 
以 乱 序 执行 ， 假 设 核心 1 先 执行 了 Load 地 址 b 寄存 器 
A 指令 ， 而 此 时 核心 2 尚未 执行 到 Stor 200 地 址 b 这 条 


指令 ， 那 么 核心 1 会 拿 到 地 址 b 处 存放 的 旧 数 据 。 可 以 
看 到 ， 相 同 颜色 的 指令 之 间 是 存在 RAW 相关 的 ， 不 幸 
的 是 ， 相 关 的 指令 被 分 布 在 了 不 同 的 核心 上 ， 而 核心 
之 间 又 没有 对 应 的 机 制 来 保证 跨 核心 的 RAW 相关 。 

乱 序 执行 导致 的 错乱 问题 与 分 支 预测 提前 执行 导 
致 的 错乱 ， 其 实 是 一 回 事 ， 其 本 质 都 是 乱 序 执行 : 本 
不 该 被 执行 的 指令 被 提前 执行 ， 只 不 过 分 支 预 测 一 旦 
发 现 预 测 错误 就 会 取消 已 经 执行 的 指令 的 结果 。 但 是 
一 旦 预测 正确 了 呢 ? 就 不 会 回 退 。 而 乱 序 执行 则 根本 
没有 回 退 机 制 ， 流 水 线 只 要 判断 出 非 RAW 相关 ， 即 可 
提前 执行 。 所 以 ， 正 确 预测 的 分 支 、 乱 序 执行 ， 都 跌 
倒 在 “无 法 跨 核 心 解决 RAW 问题 ”上 。 即 便 是 每 个 核 
心 不 乱 序 执行 、 不 预测 分 支 、 不 提前 执行 ， 只 要 跨 核 
心 的 相关 性 不 解决 ， 就 都 会 导致 程序 执行 结果 发 生 罗 
辑 错乱 。 


6.8 解决 多 核心 访 存 时 间 一 致 性 
问题 


如 果 能 有 某 种 机 制 让 线程 1 访问 共享 变量 时 ， 
其 他 线程 都 不 可 以 访问 ， 而 且 在 线程 1 更 新 完 变量 之 
后 ， 仅 当 对 应 的 新 数据 已 经 同步 到 其 他 核心 之 后 ， 其 
他 核心 上 的 线程 才能 访问 这 个 变量 ， 这 就 可 以 比较 好 
地 实现 精确 的 时 序 一 致 性 了 。 这 类 在 多 个 线程 之 间 做 
到 时 序 保 证 的 方法 ， 被 称 为 线程 同步 。 

可 以 想象 ， 仅 靠 线程 之 间 各 自 自觉 是 不 可 能 完成 
这 个 任务 的 ， 因 为 在 多 个 核心 上 运行 的 线程 之 间 是 完 
全 异步 的 ， 哪 个 线程 什么 时 候 运行 到 哪 了 ， 要 访问 哪 
里 了 ， 其 他 线程 是 根本 不 知道 的 。 线 程 间 可 以 通过 共 
享 变量 来 通告 各 自 的 状态 ， 但 是 访问 共享 变量 过 程 本 
身 也 存在 时 序 问题 和 冲突 问题 。 所 以 ， 这 个 任务 必须 
依靠 硬件 的 辅助 来 完成 。 


6.8.1 на 


硬件 可 以 提供 一 种 锁定 的 机 制 : 当 某 个 线程 要 访 
问 某 个 地 址 时 ， 可 以 通过 先 执行 一 条 特殊 的 指令 ， 比 
如 Lock 指 令 或 者 携带 Lock 控 制 位 的 访 存 指令 ， 让 运行 
该 线程 的 核心 向 总 线 上 发 出 Lock 信 号 ， 尝 试 锁定 整个 
总 线 而 不 让 其 他 核心 继续 访问 ， 如果 此 时 总 线 已 经 被 
其 他 核心 锁定 了 ， 那 么 该 Lock 请 求 会 在 下 一 个 时 钟 周 
期 内 重新 发 出 ， 直 到 成 功 将 总 线 锁定 为 止 。 对 于 早期 
的 共享 总 线 来 讲 ， 实 现 锁定 机 制 比 较 简单 ， 即 通过 一 
根 单独 的 信号 线 ， 收 到 Lock 指 令 则 先 检测 该 导线 是 不 
是 处 于 高 电 平 ， 如 果 是 ， 说 明 没有 其 他 核心 正在 锁定 
中 ， 则 拉 低 该 导线 电 平 ， 这 样 其 他 核心 的 总 线 控制 器 
就 会 知道 总 线 被 锁定 了 ， 下 一 个 周期 不 再 发 出 任何 请 
求 ， 但 是 依然 会 对 Lock 信 号 采样 以 判断 是 否 依然 被 其 
他 核心 锁定 中 。 
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总 线 是 有 仲裁 器 的 ， 任 何 一 个 核心 想 操作 总 线 上 
的 任何 信号 (包括 Lock 信 号 ) 之 前 ， 都 必须 先 获得 
仲裁 。 仲 裁 器 的 原理 前 文中 已 经 描述 过 。 正 是 这 个 仲 
裁 器 充当 了 最 原始 最 底层 的 绝对 的 串 行 化 控制 点 ， 保 
证 即便 是 有 多 个 核心 同时 试图 争 抢 Lock 信 号 ， 也 只 
有 一 个 核心 抢 到 总 线 控制 权 ， 从 而 抢 到 Lock 信 号 。 
Lock 信 号 再 去 保证 只 有 一 个 核心 发 起 访 存 操作 ， 从 而 
保障 对 共享 变量 的 串 行 访 问 。 当 然 ， 该 不 该 用 Lock 信 
号 ， 是 需要 由 程序 控制 的 ， 访 问 共享 变量 时 就 要 用 ， 
访问 非 共 享 变量 就 不 用 。 具 体 的 ， 硬 件 可 以 暴露 对 应 
的 指令 ， 即 不 同 的 CPU 对 锁 功 能 所 暴露 的 操作 方式 不 
同 : 有 些 是 用 单独 的 指令 加 锁 ， 先 锁 ， 再 执行 指令 ， 
再 解锁 ， 有 些 是 随 着 访 存 指令 一 起 附带 上 锁 信 号 ， 执 
行 该 访 存 指令 时 顺带 尝试 加 锁 ， 当 写 入 数据 后 ， 自 动 
解锁 。 

锁定 整个 总 线 无 疑 是 非常 浪费 的 ， 因 为 有 些 非 访 
存 请 求 以 及 访问 非 共 享 变量 区 域 的 访 存 请 求 也 需要 利 
用 总 线 来 传输 ， 这 就 好 比 大 炮 虽 然 可 以 打 死 蚊子 但 是 
误伤 范围 太 大 。 早 期 的 CPU 的 确 是 锁定 整个 总 线 的 ， 
后 来 逐步 优化 ， 新 的 商用 CPU 几乎 都 增加 了 一 些 细 粒 
度 控制 访问 的 硬件 模块 ， 可 以 记录 精细 的 需要 锁定 的 
起 始 内 存 地 址 + 长 度 范围 ， 只 有 落 入 这 些 地 址 的 访 存 
请 求 ， 才 会 被 检查 是 否 有 权限 访问 ， 这 样 性 能 就 不 会 
降低 太 多 了 。 一 旦 某 段 地 址 被 加 锁 ， 谁 加 的 锁 谁 才 被 
允许 写 入 该 区 域 (通过 访 存 请 求 中 的 核心 标识 符 来 区 
分 ) ， 其 他 核心 针对 该 地 址 段 的 加 锁 请 求 或 者 不 带 锁 
的 写 请 求 都 会 被 阻塞 ， 暂 时 不 发 送 到 总 线 ， 一 直到 总 
线 被 解锁 之 后 。 


共享 变量 是 需要 被 所 有 核心 都 看 得 到 的 ， 所 以 
编译 器 不 能 像 非 共享 变量 一 样 直接 把 对 应 的 数值 放 
到 某 寄存 器 中 来 计算 、 更 新 ， 每 次 更 新 时 ， 必 须 用 
Stor 指 令 存储 到 外 部 存储 器 中 ， 这 样 其 他 核心 才 看 
得 到 。 具 体 的 ， 编 译 器 不 会 自动 去 检查 某 个 变量 
是 不 是 共享 变量 ， 而 是 要 让 程序 员 通过 一 些 编译 
制导 关键 字 来 告诉 编译 器 应 该 怎么 做 ， 比 如 volatile 
int a=0， 其 中 volatile 关 键 字 就 是 用 来 告知 编译 器 不 
要 把 变量 a 存储 到 寄存 器 中 ,而 是 要 写 到 外 部 存储 
器 。 如 果 程 序 员 忘记 加 制导 关键 字 ， 程 序 会 产生 潜 
在 bug。 同 理 ， 对 于 volatile 关 键 字 的 变量 ， 每 次 访 
间 也 必须 从 内 存 地 址 而 不 是 寄存 器 中 访问 ， 这 样 才 
能 保证 访问 到 其 他 核心 已 经 改动 过 ( 而 后 被 存储 到 
内 存 地 址 中 ) 的 值 。 


如 果 多 核心 之 间 是 通过 Crossbar/Ring 等 多 级 跳 网 
络 来 连接 的 话 ， 底 层 机 制 就 需要 考虑 得 更 多 一 些 。 如 
果 某 时 刻 ， 某 核心 发 出 了 一 个 Lock 请 求 ， 该 Lock 请 求 
会 被 与 该 核心 连接 的 那个 Crossbar/Ring 控 制 器 广播 到 
与 其 他 核心 连接 的 每 个 Crossbar/Ring 控 制 器 上 ， 通 告 
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Lock 画 数 退 出 后 才能 有 机 会 块 行 后 缤 的 代码 ， 抢 
不 到 馈 ， 就 会 在 Lock 函 教 内 部 进入 无 限 特 环 等 符 


图 6-129 采用 自 旋 互 斥 锁 的 程序 逻辑 示意 图 


它们 “凡是 访问 这 段 地 址 的 请 求 ， 你 们 都 暂时 阻塞 不 
发 出 ”， 对 方 再 返回 一 个 Lock Response 来 确认 加 锁 成 
功 。 看 似 也 简单 ， 但 是 如 果 有 多 个 核心 同时 发 出 Lock 
请 求 ， 最 终 如 何 判 定 谁 获胜 昵 ， 这 就 得 有 个 仲裁 机 
制 ， 如 果 不 用 仲裁 ， 谁 先 来 的 谁 获胜 。 对 于 这 种 分 布 
式 网 络 就 会 有 死 锁 的 问题 ， 比 如 A->B->C->D->A 这 个 
Ring，A 和 C 同 时 发 出 一 个 锁定 请 求 ，B 先 收 到 的 是 A 
的 锁定 请 求 ， 而 D 先 收 到 的 是 C 的 请 求 ， 这 样 B 认 为 A 
获胜 ，D 认 为 C 获 胜 ， 产 生 了 分 歧 ， 这 是 不 允许 的 。 
解决 死 锁 的 办 法 有 多 种 ， 比 如 每 个 节点 均 根 据 节 点 ID 
小 或 大 者 获胜 。 再 或 者 ， 在 网 络 上 寻找 一 个 独立 裁决 
者 来 集中 裁决 ， 既 然 都 是 为 了 访问 内 存 ， 那 么 就 干脆 
让 挂 接 到 Ring/Crossbar 上 的 MC 控 制 器 〈SDRAM 控 制 
器 ) 来 充当 这 个 角色 好 了 。 实 际 设计 中 不 一 而 同 。 

Intel 的 CPU 实现 了 一 种 更 高 效 的 手段 ， 叫 作 
Cache Lock。 如 果 要 锁定 的 地 址 对 应 的 数据 恰好 
在 当前 CPU 缓存 中 且 为 M 或 者 E 态 (修改 态 或 独占 
态 ， 详 见 6.9.2 一 节 ) ， 则 对 该 缓存 行 做 锁定 标记 。 
这 样 ， 当 有 其 他 核心 要 访问 这 行 数据 时 ， 本 核心 会 
接收 到 对 应 的 缓存 一 致 性 消息 ， 此 时 本 核心 只 要 不 
回复 该 消息 ， 对 方 CPU 就 拿 不 到 数据 ， 这 就 成 功 实 
现 了 锁定 ， 而 且 不 需要 锁定 总 线 。 关 于 缓存 一 致 性 
的 具体 实现 详 见 下 文 介绍 。 


有 了 上 面 机 制 的 支撑 ， 我 们 就 可 以 设计 一 个 用 于 
多 线程 共享 访问 一 个 或 者 多 个 变量 的 串 行 化 无 冲突 机 
制 。 比 如 ， 有 A、B 两 个 整 型 变量 需要 被 多 线程 共享 
访问 ， 初 始 时 A=B=0。 我 们 再 单独 初始 化 另外 一 个 整 
型 变量 L=1， 工 也 可 以 被 多 个 核心 共享 访问 。 我 们 把 
变量 L 当 成 A 和 B 的 锁 ， 值 为 1 表示 锁 被 打开 了 ， 值 为 
0 或 者 负 值 则 表示 被 某 个 核心 上 了 锁 ， 正 在 独占 访问 
A 和 B。 当 某 个 核心 上 的 线程 要 访问 共享 变量 A 和 B 之 


前 ， 必 须 先 获取 工 这 把 锁 ， 获 取 成 功 才能 访问 A 和 B， 
不 成 功 就 继续 尝试 获取 。 有 具体 可 以 这 样 做 :使 用 带 锁 
的 自 减 指令 ， 假 设 名 为 Dec Г, (Decrese with Lock) 指 
$, Dec L 工 的 地 址 ， 该 指令 会 从 内 存 中 把 L 读 回来 
并 减 1， 然 后 将 结果 再 写 回 到 L 所 在 的 地 址 上 ， 同 时 还 
会 将 结果 的 属性 (0? EH? HE? ) 更 新 到 CPU 内 
部 的 状态 寄存 器 中 以 供 下 面 的 条 件 跳 转 指令 参考 〈 事 
实 上 不 仅仅 是 De 指令， 任何 算术 运算 都 会 把 结果 的 
属性 更 新 到 状态 寄存 器 ) 。 如 果 L 的 值 原本 为 1， 则 指 
令 执行 结果 将 为 0， 内 存 中 的 LL 也 被 更 新 为 0%， 顺利 上 
了 锁 ， 可 以 自由 访问 A 和 B; 如 果 工 的 值 原 本 已 经 为 0 
(已 经 被 其 他 核心 上 了 锁 ) ， 则 本 核心 本 次 的 执行 结 
果 会 为 负 值 ， 工 也 被 更 新 为 该 负 值 〈 负 值 同样 表 示 被 
上 了 锁 ) ， 那 么 就 证 明 本 核心 本 次 没有 抢 到 锁 ， 需 要 
跳 转 到 开头 处 ， 也 就 是 Dec_ 工 指令 处 执行 ， 继 续 尝 试 
抢 锁 动作 。 

多 个 核心 可 能 在 不 停 地 试图 抢 锁 〈 虽 然 在 解锁 前 
是 抢 不 到 的 ) 。 如 果 工 已 经 被 上 了 锁 ， 那 么 再 有 核心 
去 更 新 L， 会 使 L 变 成 负 值 。 每 次 试图 执行 Dec LS 
将 的 值 -1，L 的 值 不 断 减 小 ， 直 到 被 解锁 后 才 重 新 变 
成 1， 然 后 再 次 被 某 个 核心 抢 到 ， 变 为 0。 其 后 其 他 核 
心 再 次 不 断 争 抢 ， 工 继续 减 小 。 这 种 抢 不 到 锁 就 一 直 
循环 检测 锁 变 量 然后 伺机 继续 抢 锁 的 方式 ， 被 称 为 自 
旋 锁 (spinlock) 。 意 即 抢 不 到 就 不 断 循环 重 试 。 

图 6-129 为 按照 Linux 操 作 系统 在 Intel x86 指 令 集 
CPU 平台 下 所 实现 的 加 锁 和 解锁 的 伪 代 码 流程 逻辑 
示意 图 。 实 际 的 函数 名 称 为 _raw_spin_ Јоско А __ 
raw_spin_unlock()。 如 果 运 行 在 ARM CPU 平 台 上 ， 
这 两 个 函数 内 部 的 逻辑 就 会 有 变化 ， 会 使 用 ARM 指 
令 集 中 LDREX 和 STREX 指 令 ( 带 锁 的 Load 和 Stor 指 
令 ，EX 表 示 Exclusive)〉 的 组 合 来 对 锁 变量 进行 原子 变 
更 。LDREX 指 令 会 让 外 部 网 络 对 指定 地 址 的 访问 加 
上 锁 ， 只 有 当时 加 锁 的 那个 核心 才能 针对 该 地 址 执行 
STREX 指 令 。 具 体 机 制 和 步骤 可 以 自行 研究 。 


т» 


实际 中 ， 如 果 某 个 核心 持续 抢 不 到 锁 ， 持 续 跳 
转 到 Dec 工 指令 不 断 执行 的 话 ， 会 非常 耗费 CPU; 
而 且 最 关键 的 一 点 是 ，Dec 工 是 带 锁 的 指令 ， 会 举 
试 锁定 整个 总 线 ( 老 CPU ) 或 者 对 应 的 区 域 (新 
CPU) ， 拖 累 其 他 核心 的 性 能 。 这 相当 于 在 4 个 业 
务 窗 口 前 办 理 业 务 ， 没 轮 到 你 ， 但 是 你 却 不 停 地 循 
环 大 喊 “ 到 我 了 没 ! ”， 结 果 4 个 业务 窗口 中 的 服 
务 人 员 与 客户 的 对 话 完全 被 你 的 大 嗓门 盖 挤 了 ， 不 
得 不 暂停 。 所 以 如 果 没 抢 到 锁 ， 也 不 用 发 疯 一 般 地 
去 重 试 ， 而 是 可 以 先 用 不 带 锁 的 Load 指 令 或 者 Cmp 
指令 ， 尝 试 读 取 L 所 在 地 址 的 值 ( 读 取 操作 是 可 以 
的 ) ， 然 后 看 一 下 其 是 否 依然 还 是 0 或 者 负 值 (被 上 
了 锁 ) ， 如 果 不 再 是 ， 证 明 已 经 被 其 他 核心 解锁 了 
( 解锁 过 程 就 是 把 L 改 为 1 ) ， 此 时 再 跳 转 到 Dec 工 带 
锁 的 指令 去 抢 锁 ， 这 样 就 可 以 不 降低 太 多 的 性 能 。 或 
者 在 第 一 次 没 抢 到 锁 之 后 ， 等 待 一 段 时 间 再 继续 。 


上 述 这 种 做 法 被 称 为 互 斥 锁 ， 意 即 多 个 人 共享 访 
问 某 些 资源 ， 但 是 同一 时 刻 只 能 由 一 个 人 对 共享 资源 
做 变更 操作 ， 多 个 线程 互相 排斥 对 共享 资源 的 访问 。 
抢 到 锁 之 后 ， 线 程 在 解锁 之 前 所 做 的 事情 以 及 操作 的 
内 存 区 域 ， 被 称 为 临界 区 〈critical section) 。 上 述 的 
Dec 内 存 地址 、Ine 内 存 地 址 等 类 似 指令 ， 属 于 Read- 
Modify-Write 类 指令 ， 从 内 存 中 读 出 原来 的 值 ， 利 用 
ALU 运 算出 新 值 ， 再 写 回 到 原来 的 内 存 地 址 。 

Dec _ 工 将 工 的 值 减 1 这 个 动作 ， 是 由 3 个 更 小 的 步 
又 组 成 的 ;从 地 址 取 回 工 的 值 、 将 工 减 1、 将 结果 写 
回 到 工 所 在 的 内 存 地 址 以 及 更 新 结果 属性 到 内 部 状态 
寄存 器 。 在 这 3 步 操作 期 间 ， 如 果 不 锁定 住 整个 总 线 
或 者 工 的 内 存 地 址 的 话 ， 其 他 线程 就 有 可 能 乱入 ， 将 
工 的 值 更 新 。 这 样 就 错乱 了 ， 所 以 一 定 要 带 锁 。 如 
果 有 多 个 步骤 共同 组 成 一 个 完整 的 大 步骤 ， 而 且 这 
些 步 骤 执 行 期 间 不 能 被 其 他 人 乱入 ， 这 些 步骤 被 称 
为 一 个 事务 Ctransaction) ， 或 者 原子 操作 〈atomic 


operation) 。 


对 于 事务 /原子 操作 ， 还 有 另外 一 种 定义 。 一 个 
事务 内 部 牵扯 到 的 全 部 动作 ， 要 么 全 被 执行 完 ， 要 
么 全 没有 执行 ， 像 没 发 生 一 样 。 也 就 是 说 ， 事 务 / 
原子 操作 应 该 是 可 以 支持 回 退 到 发 生 该 事务 之 前 状 
态 的 。 但 是 显然 CPU 内 的 带 锁 指令 的 执行 轨迹 是 无 
法 回 退 的 ， 因 为 这 些 指令 的 执行 结果 不 仅仅 影响 了 
本 核心 内 部 的 状态 ， 也 影响 了 网 络 上 其 他 部 件 的 状 
态 。 虽 然 单 个 核心 内 部 是 有 提交 队列 的 ， 可 以 设计 
为 把 事务 牵扯 到 的 变更 操作 先 记 录 到 提交 队列 中 ， 
都 执行 完毕 后 再 更 改 对 应 的 流水 线 寄存 器 ， 但 是 这 些 
指令 的 执行 不 需要 回 退 ， 也 不 存在 被 回 退 的 机 会 。 


第 6 章 多 处 理 器 微 体系 结构 一 一 多 核心 与 缓存 区 5 到 弄 


这 里 面 一 定 要 深刻 理解 ， 访 问 临界 区 内 部 的 资源 
(比如 A 和 B》 是 不 需要 使 用 带 锁 访 存 指令 的 ， 临 界 
区 的 锁 工 的 值 如 果 为 0/ 负 值 表示 临界 区 被 上 了 锁 ， 谁 
上 的 锁 谁 就 可 以 肆 无 忌 恒 地 访问 临界 区 而 不 用 担心 会 
有 人 乱入 一 一 除非 程序 有 bug， 在 不 检查 自己 是 否 抢 
到 锁 的 前 提 下 践踏 了 临界 区 中 的 数据 。 


提示 > 

锁 ， 其 本 身 也 是 一 个 共享 变量 ， 只 不 过 访问 它 
的 时 候 是 使 用 带 着 锁 的 指令 来 访问 。 既 然 这 样 ， 访 
问 整个 临界 区 里 所 有 共享 变量 都 用 带 锁 的 指令 ， 不 
就 不 需要 锁 变 量 了 么 ? 不 行 ， 因 为 带 锁 指令 只 保证 
访问 单个 变量 时 无 人 乱入 ,但 是 并 不 保证 访问 临 
界 区 里 多 个 变量 时 无 人 乱入 。 假 设 ，Inc A; Inc B; 
C=A+B; 这 三 条 语句 是 线程 1 内 的 一 个 原子 操作 / 事 
$, Dec А; Dec B: C=A-B 这 三 条 语句 是 线程 2 内 的 
一 个 原子 操作 /事务 。 现 在 这 两 个 线程 访问 A 和 B 时 
都 只 对 每 条 语句 对 应 的 底层 指令 用 带 锁 指令 的 话 ， 
那么 到 底 谁 能 抢 到 每 个 变量 的 访问 权 是 不 一 定 的 ， 
最 后 依然 是 乱 套 。 


当然 ， 如 果 你 特别 在 意 这 种 风险 ， 可 以 连 临界 区 
中 的 变量 一 起 加 锁 ， 但 是 这 会 导致 潜在 的 性 能 问题 。 
抢 到 锁 变量 L 的 更 改 权 的 过 程 ， 是 需要 对 L 所 在 的 地 址 
的 访问 加 锁 独占 才 可 以 的 ， 而 且 访 问 L 时 所 携带 的 锁 
信号 只 在 该 指令 执行 期 间 有 效 ， 执 行 完 就 释放 了 。 但 
是 在 抢 到 L 的 那个 线程 访问 临界 区 期 间 ，L 恒 等 于 0/ 负 
值 ， 正 因 如 此 ， 在 该 线程 不 主动 释放 L 前 ， 其 他 核心 
谁 也 抢 不 到 L， 从 而 自觉 地 不 去 访问 临界 区 资源 ， 如 
果 程 序 出 现 了 bug， 或 者 有 意 为 之 ， 即 便 没有 抢 到 锁 
也 可 以 访问 临界 区 共享 变量 ， 因 为 这 些 变 量 没有 被 加 
锁 。 这 里 面 有 好 几 个 锁 字 ， 而 且 概念 不 同 ， 需 要 来 回 
反复 深刻 理解 。 
提示 > 

如 果 在 单个 核心 上 轮流 运行 多 个 线程 ， 是 否 也 
需要 加 锁 呢 ? 依然 需要 。 比 如 线程 1 读 入 某 个 共享 
变量 ， 将 其 +1， 假 设 结果 为 A， 但 是 结果 还 在 寄存 
器 中 没 写 回 到 缓存 /内 存 之 前 ， 该 核心 被 外 部 中 断 打 
断 了 。 该 核心 在 执行 完 中 断 服 务 程序 及 其 下 游 的 附 
带 程序 之 后 ， 开 始 运行 线程 调度 程序 ， 而 后 者 调度 
了 线程 2 运行 ， 线 程 2 对 该 变量 +2， 假 设 结果 为 B。 
线程 2 比较 幸运 ， 直 到 将 该 结果 写 到 缓存 /内 存 之 前 
都 没有 被 打 断 ， 此 时 缓存 /RAM 中 该 变量 的 值 为 B。 
然后 ， 线 程 1 得 到 了 执行 机 会 ， 继 续 之 前 的 操作 ， 
将 A 写 回 到 缓存 ， 这 就 误 桥 盖 了 B ， 而 线程 2 却 并 
不 知道 它 辛苦 算出 来 的 结果 就 这 么 被 覆盖 掉 了 。 所 
以 ， 不 加 锁 不 行 。 


现在 思考 一 个 问题 。 前 文中 说 过 ， 最 强 的 时 序 
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一 致 性 ， 也 就 是 0 延迟 同步 ， 或 者 称 之 为 终极 一 致 性 
(ultimate consistency) ， 其 在 当前 的 理论 下 是 无 法 
实现 的 ， 因 为 违反 了 现 阶段 的 光速 有 限 原理 。 既 然 这 
样 ， 当 自 旋 锁 解锁 时 ， 所 有 针对 临界 区 共享 变量 的 更 
改 ， 就 无 法 保证 被 立即 瞬时 地 同步 到 了 其 他 核心 的 组 
存 中 。 假 设 这 些 更 新 的 数据 需要 延迟 mw 时 间 才 能 完成 
缓存 的 同步 ， 那 么 ， 其 他 核心 如 果 在 m 时 间 之 内 成 功 
地 获取 了 锁 并 读 入 了 共享 变量 ， 读 到 的 就 是 旧 值 ， 程 
序 会 输出 带 有 逮 辑 错误 的 结果 ， 除 非 程序 原本 就 被 设 
计 为 可 以 忍受 这 种 不 一 致 〈 那 就 不 用 互 斥 锁 了 ) 。 所 
以 ， 加 锁 的 原子 操作 只 能 保证 多 核心 之 间 不 会 同时 更 
改 某 个 变量 ， 但 是 保证 不 了 共享 变量 的 最 新 值 还 没 同 
步 到 对 方 缓存 之 前 ， 锁 变量 却 先 被 同步 过 去 了 ， 而 对 
方 拿 到 锁 后 ， 共 享 变量 依然 没 同步 过 来 ， 结 果 对 方 读 
到 了 旧 数 据 。 


让 子弹 飞 > 


有 了 ， 你 看 这 样 行 不 行 ， 每 个 线程 在 获取 到 锁 
之 后 ， 先 不 急 着 去 访问 共享 变量 ,而 是 先 让 子弹 在 
访 存 网 络 上 飞 一 会 ， 估 摸 着 差不多 都 命中 目标 了 ， 
再 去 访问 。 嗯 ， 这 的 确 是 个 很 豪爽 的 野 路 子 ， 但 是 
大 侠 的 这 套 方 法 略 显 粗糙 ， 不 够 儒雅 ， 什 么 时 候 子 
弹 飞 到 了 ， 完 全 赁 您 的 经 验 ， 判 断 旱 了 程序 出 错 ， 
判断 晚 了 ， 等 得 太 久 又 影响 了 性 能 。 大 侠 是 体面 
人 ， 是 否 可 以 构建 一 套 既 不 需要 CPU 每 一 条 访 存 指 
令 都 保障 0 延迟 ， 又 可 以 随时 控制 CPU 仅 当 同步 完 
成 之 后 再 往 下 走 的 机 制 呢 ? 兄弟 们 ， 放 枪 ! ("8 
Фев) 大 哥 ， 怎 么 还 不 解锁 ? 别 急 ， 让 子弹 飞 
一 会 ! ЛМ? 四 节 ! 听见 几 声 响 了 ? 3 声 
T! 第 4 声 也 响 了 ! 兄弟 们 ， 解 锁 ! 让 友军 一 睁 眼 
就 能 看 到 那些 乌 错 的 弹痕 吧 ! 


6.8.2 让 子弹 飞 

CPU 核心 虽然 不 会 对 所 有 访 存 指令 都 保证 完全 同 
步 〈 因 为 并 不 是 所 有 访 存 指令 访问 的 都 是 多 核心 共享 
的 变量 ) ， 但 是 可 以 被 设计 为 通过 一 些 指令 的 控制 ， 
让 程序 告诉 CPU“ 等 待 所 有 未 同步 到 其 他 核心 的 所 有 
访 存 结果 都 同步 了 ， 再 执行 后 续 的 访 存 指令 ”， 看 上 
去 非常 合理 。 假 设 有 这 样 一 条 指令 : CPU 只 要 收 到 这 
条 指令 ， 便 暂停 执行 该 指令 后 面 的 、 已 经 被 载 入 流水 
线 中 的 所 有 访 存 指令 〈 注 意 ， 仅 仅 针对 访 存 指令 ， 运 
算 指令 依然 可 以 继续 执行 ， 把 性 能 影响 降 到 最 低 ) ， 
然后 开始 等 待 所 有 位 于 该 指令 前 面 的、 已 经 执行 完 但 
是 还 没有 同步 完 的 、 正 在 执行 中 的 访 存 指令 的 结果 全 
部 同步 到 其 他 核心 缓存 ， 即 确保 这 些 变更 结果 对 系统 
内 所 有 核心 都 可 见 之 后 (可 见 就 是 其 他 核心 车 读 写 这 
些 地 址 ， 读 到 的 一 定 是 最 新 同步 过 来 的 数据 ) ， 再 开 
始 执行 该 指令 之 后 的 访 存 指令 。 流 水 线 控制 电路 中 需 


要 增加 对 上 述 逻 辑 的 判断 和 执行 控制 ， 可 以 想象 出 这 
些 逻 辑 电路 的 复杂 程度 。 

那么 ， 核 心 又 是 怎么 判断 更 新 的 数据 已 经 完全 同 
步 到 了 其 他 核心 缓存 中 了 呢 ? 在 缓存 一 致 性 的 缓存 同 
步 过 程 中 ， 收 到 同步 广播 的 核心 都 需要 向 发 出 广播 的 
核心 返回 一 个 应 答 消 息 ， 以 证 明 自 己 的 确 收 到 了 该 同 
步 数据 并 且 能 够 保证 下 次 访问 时 就 会 应 用 最 新 的 数据 
(6.9 节 会 详细 介绍 这 些 消 息 ) 。 也 正 因 如 此 ， 能 够 让 
CPU 核心 明确 知道 同步 的 结果 ， 只 要 所 有 其 他 核心 都 
返回 了 确认 消息 ， 发 出 同步 的 核心 就 可 以 判断 某 个 访 
存 指令 已 经 彻底 被 同步 到 了 其 他 核心 了 。 这 里 面 的 具 
体 机 制 和 过 程 ， 会 在 下 一 节 介绍 。 

这 种 能 让 某 个 核心 一 执行 它 就 停 下 等 待 直到 子弹 
飞 到 目的 地 的 指令 ， 叫 做 访 存 屏障 (memory barrier, 
或 者 简称 barrier) 指令 。Intel x86 平 台 CPU 给 出 了 如 下 
几 种 访 存 屏障 指令 ， 实 际 中 可 择机 使 用 。 

Mfence: Memory Fence， 不 管 是 读 还 是 写 ， 位 于 
Mfence 指 令 之 前 的 所 有 访 存 指令 的 执行 结果 一 定 全 部 
同步 完毕 之 后 ， 才 会 执行 Mfence 后 面 的 访 存 指令 。 

Lfence: Load Fence， 位 于 Lfence 指 令 之 前 的 全 
部 Load 指 令 都 同步 之 后 ， 再 执行 Lfence 后 面 的 访 存 
指令 。 

Sfence: Stor Fence， 位 于 Sfence 指 令 之 前 的 全 
部 Stor 指 令 都 同步 之 后 ， 再 执行 Sfence 后 面 的 访 存 
指令 。 

ARM 平 台 CPU 提 供 的 则 是 如 下 的 访 存 屏障 指令 。 

DMB : Data Memory Barrier， 仅 当 位 于 它 之 前 
的 所 有 访 存 指令 (不管 是 Load 还 是 Stor) 结果 都 同步 
完毕 后 ， 才 执行 它 后 面 的 访 存 指令 不 管 是 Load 还 是 
Stor) 。 

DSB: Data Synchronous Barrier， 仅 当 位 于 它 前 
面 的 所 有 访 存 指令 (不 管 Load 还 是 Stor) 都 同步 完毕 
后 ， 才 执行 它 在 后 面 的 所 有 指令 (所 有 指令 ， 不 仅 是 
访 存 指令 ) 。 比 DMB 的 时 序 屏 障 要 更 加 严格 。 

ISB: Instruction Synchronous Barrier， 仅 当 位 于 
该 指令 前 面 的 所 有 指令 〈 所 有 指令 ， 不 仅 是 访 存 指 
令 ) 都 执行 并 且 同 步 完毕 之 后 ， 才 执行 该 指令 后 面 的 
所 有 指令 (所 有 指令 ， 不 仅 是 访 存 指令 ) 。 属 于 最 为 
严格 时 序 屏障 。 

有 些 指令 在 执行 完 自身 功能 之 后 会 撒 带 一 起 实现 
最 严格 的 访 存 屏障 ， 比 如 Intel x86 体 系 里 所 有 带 Lock 
信号 的 访 存 指令 (如 Inc_L 地 址 A) ， 以 及 一 些 对 控 
制 寄存 器 〈 如 页 表 基 地 址 寄存 器 等 ) 的 更 改 操作 指 
令 ， 以 及 一 些 冲 刷 流水 线 、 冲 刷 缓 存 脏 数 据 的 指令 
(如 WBINVD 等 ) ， 等 等 ，CPUID 指 令 也 会 撒 带 实现 
访 存 屏障 。 也 就 是 说 ， 当 核心 开始 执行 带 锁 的 指令 之 
前 ， 会 等 待 所 有 其 之 前 的 Load/Stor 类 指令 全 部 完成 ， 
再 执行 该 带 锁 指令 。 这 种 撒 带 实现 屏障 的 方式 称 为 隐 
式 屏障 。 

上 述 x86 体 系 下 的 fence 指 令 ， 是 在 Intel 后 期 的 


CPU 中 才 开始 支持 的 ， 早 期 的 Intel CPU 只 能 采用 带 
Lock 的 指令 来 实现 屏障 。 虽 然 最 终 也 可 以 达到 屏障 
目的 ， 但 是 代价 太 高 ， 一 刀 切 ， 所 有 访 存 指令 都 给 屏 
障 了 。 

上 述 的 各 种 fence 指 令 一 般 会 被 封装 为 各 种 
Barrier 函 数 ， 用 户 在 合适 的 地 方 调用 这 些 函 数 就 可 
以 实现 屏障 。 比 如 smp_mb0、smp_rmb0、smp_smb0 
分 别 封装 着 Mfence、Lfence、Sfence 指 令 。 对 于 不 支 
持 fence 的 老 Intel CPU， 这 些 函 数 则 可 以 封装 一 条 不 
会 对 整个 程序 执行 产生 什么 影响 的 隐 式 屏障 指令 ， 
比如 CPUID。 


6.8.3 ”硬件 原生 保证 的 基本 时 序 


有 些 CPU 在 执行 访 存 指令 的 时 候 会 原生 地 保证 一 
些 时 序 ， 不 需要 执行 屏障 指令 ， 即 原生 地 保障 一 些 最 
基本 的 序 。 如 果 程 序 可 以 在 这 些 基 本 的 保障 之 上 运行 
而 没有 逻辑 问题 的 话 ， 那 么 程序 员 就 可 以 不 再 使 用 这 
些 拥有 更 高 代价 的 显 式 或 者 隐 式 屏障 指令 了 。 

上 文中 所 述 的 终极 一 致 性 是 很 难 实现 的 ， 也 没有 
任何 CPU 实现 。 有 些 CPU 原生 提供 的 时 序 保障 比 终极 
一 致 性 弱 一 些 。 比 如 ， 有 些 保证 所 有 的 访 存 指令 都 按 
照 程序 代码 中 的 顺序 依次 执行 ， 不 会 重 排序 执行 ， 但 
对 运算 指令 依然 会 重 排序 以 实现 乱 序 执行 提升 效率 。 
这 种 时 序 一 致 性 保障 被 称 为 程序 一 致 性 (programm 
consistency) 。 

比 程序 一 致 性 再 弱 一 些 的 ， 则 是 要 求 所 有 核心 的 
Stor 访 存 操作 的 结果 被 同步 到 其 他 核心 时 必须 按照 程 
序 原 有 的 顺序 被 其 他 核心 看 到 。 也 就 是 说 ， 可 以 允许 
所 有 Stor 类 访 存 指令 (或 者 包含 在 诸如 Inc 地 址 A 这 种 
运算 指令 中 的 访 存 操作 ) 整体 都 被 其 他 任何 一 个 核心 
延迟 看 到 ， 但 是 不 可 以 乱 序 看 到 ， 每 个 核心 的 延迟 也 
可 以 不 同 ， 但 是 看 到 的 顺序 都 相同 。 这 种 时 序 保 障 被 
称 为 顺序 一 致 性 (sequential consistency) 。 

比 顺序 一 致 性 再 弱 一 些 的 ， 则 是 只 保证 每 个 核 
心 发 出 的 那 一 批 Stor 类 访 存 指令 对 其 他 所 有 核心 所 见 
的 时 序 与 程序 中 相同 ， 这 一 批 次 内 顺序 有 保障 ， 但 
是 多 个 核心 的 多 批 写 访 存 指令 之 间 就 没有 时 序 保障 
了 ， 可 以 是 相互 穿插 乱 序 的 。 具 体 如 图 6-130 所 示 。 
图 中 的 A/B/C 表 示 地 址 ，1/2/3 表 示 是 哪个 核心 的 访 存 
指令 。 这 种 时 序 保障 被 称 为 处 理 器 一 致 性 (processor 
consistency) 。 

还 有 更 多 其 他 的 时 序 保障 方式 ， 后 文中 再 介绍 。 
还 有 一 些 非常 细碎 的 时 序 规则 ， 无 法 简单 地 被 归 类 成 
某 种 类 别 ， 比 如 图 6-131 所 示 的 Intel CPU 中 的 一 些 细 
碎 的 时 序 规则 。 

有 些 CPU 甚至 可 以 通过 用 特殊 的 指令 将 一 些 参数 
写 入 对 应 的 控制 寄存 器 ， 从 而 动态 改变 核心 执行 访 存 
指令 时 原生 保障 的 时 序 方式 。 


第 6 章 多 处 理 器 微 体系 结构 一 一 多 核心 与 缓存 区 ZE 于 到 要 


Order of Writes From Individual Processors 


Processor #1 Processor #2 Processor #3 
Each processor r Write A.1 Write A2 Write А.З 
is ЕД 0 | writeB1 Write B.2 Write B.3 

L 一 Writ 2 
рок! Write С.Л te С. Write С.З 


Example of order of actual writes 
from all processors to memory 


Writes аге in order __y WriteA1 一 


with respect to — = Write B.1 

individual processes. N, WrieA2 Writes from all 
Write А.З processors are 

A wrie C1 |-> not guaranteed 

Write B.2 to occur in a 
Write С.2 particular order. 
Write B 3 
Write C.3— 


图 6-130 Processor Consistency/Order 示 意图 


Neither Loads Nor Stores Are Reordered with Like Operations 
Stores Are Not Reordered With Earlier Loads 

Loads May Be Reordered with Earlier Stores to Different Locations 
Intra-Processor Forwarding 15 Allowed 

Stores Are Transitively Visible 

Stores Are Seen in a Consistent Order by Other Processors 
Locked Instructions Have a Total Order 

Loads and Stores Are Not Reordered with Locked Instructions 


图 6-131 Intel CPU 中 的 一 些 细碎 的 时 序 规则 


有 一 点 可 以 肯定 的 是 ， 时 序 越 弱 ， 整 体 性 能 越 
好 ， 因 为 受到 的 约束 更 少 ， 就 可 以 更 加 自由 地 乱 序 重 
排 ， 也 就 可 以 更 加 充分 地 利用 流水 线 资源 。 但 是 对 程 
序 的 要 求 也 就 越 高 ， 需 要 程序 员 时 刻 注意 在 适当 位 置 
插入 对 应 的 屏障 。 

有 些 CPU 可 以 支持 对 不 同 内 存 地 址 区 域 采用 不 同 
的 时 序 保 障 。 比 如 ， 对 于 一 些 IO 设 备 控制 器 寄存 器 
的 地 址 区 域 ， 对 其 访问 几乎 都 是 有 时 序 关 联 的 。 因 为 
这 些 寄存 器 后 端 直接 与 IO 控制 器 内 部 的 逻辑 电路 相 
连 ， 其 作用 并 不 是 为 了 存储 数据 ， 它 们 多 数 存储 的 都 
是 一 些 控制 信号 。 有 些 1/O 寄 存 器 一 旦 读 出 数据 ， 后 
面 的 VO 控制 器 都 会 感知 到 ， 从 而 做 出 不 同 的 反应 ， 
所 以 并 不 是 所 有 的 寄存 器 读 操作 都 不 会 产生 影响 的 。 
那么 ， 对 这 些 I/O 地 址 区 域 的 访问 就 需要 保证 其 程序 
一 致 性 ， 不 要 擅自 重 排序 执行 ， 如 图 6-132 所 示 。Intel 
CPU 采用 MITRR (Memory Type Range Register， 内 存 
类 型 范围 寄存 器 ) 来 专门 存放 “访问 哪些 内 存 区 域 用 
什么 时 序 保 障 方式 ”“ 哪 些 区 域 不 可 被 缓存 ”“ 哪 些 
区 域 透 写 / 回 写 ”等 策略 信息 。 

另外 值得 一 提 的 是 ， 上 述 这 些 CPU 内 部 原生 的 时 
序 保障 ， 只 是 保障 其 他 核心 在 看 到 了 对 应 的 更 新 时 一 
定 是 按照 对 应 顺序 的 《比如 顺序 一 致 性 保证 所 有 核心 
的 全 部 更 新 对 所 有 核心 所 见 时 都 是 按照 顺序 出 现 的 、 
处 理 器 一 致 性 仅 保证 所 有 核心 会 看 到 每 一 个 核心 自身 
所 发 出 的 数据 更 新 是 按照 顺序 出 现 的 ) ， 但 是 这 些 
原生 时 序 保障 措施 并 不 保障 “ 某 个 更 新 会 瞬间 被 看 
， 这 点 需要 深刻 反复 理解 。 如 果 任 何 更 新 可 以 瞬 
间 被 其 他 核心 看 到 《比如 一 个 时 钟 周期 内 ) ， 那 就 彻 
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底 解决 了 时 空 一 致 性 问题 。 


<| Loads Reordered After Stores? 
<| Stores Reordered After Stores? 

<| <| <| <| Stores Reordered After Loads? 
<| Atomic Instructions Reordered With Loads? 
<| Atomic Instructions Reordered With Stores? 
<| Dependent Loads Reordered? 
<| Incoherent Instruction Cache/Pipeline? 
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图 6-132 览 
提示 > 

具体 实现 上 ， 核 心 只 要 告诉 访 存 网 络 控制 器 某 
些 请 求 不 能 被 乱 序 传输 即 可 。 可 以 将 这 种 严格 时 序 
作为 一 个 标志 写 入 到 网 络 数据 包 的 包头 控制 字段 
中 ， 网 络 上 的 所 有 传送 /交换 部 件 凡是 遇 到 带 有 该 标 
志 的 数据 包 ， 全 部 按照 FIFO 方 式 先进 先 出 。 如 果 网 
络 中 有 多 条 路 径 可 以 达到 目标 ， 那 么 必须 保证 带 有 
这 些 标志 的 数据 包 只 沿 着 同一 条 路 径 传送 ， 和 否则 可 
能 引起 乱 序 。 由 于 每 个 核心 只 能 控制 它 自 己 发 出 来 
的 所 有 访 存 请 求 按 序 发 送 到 网 络 上 ， 而 多 个 核心 会 
同时 发 送 访 存 请 求 到 网 络 上 ， 这 样 无 法 分 清 谁 先 谁 
E, SR, 最 终 这 些 同时 到 达 的 请 求 还 是 会 被 访 存 
网 络 硬件 Mux/Demux 串 行 化 存放 到 FIFO 中 的 。 跨 核 
心 保 序 是 无 法 做 到 的 。 


CPU 提供 的 这 些 时 序 保障 只 是 最 基本 的 ， 有 些 程 
序 只 利用 这 个 基本 保障 就 可 实现 同步 。 比 如 下 面 这 个 
例子 。 

需求 : 线程 1 不 断 向 A/B/C 三 个 地 址 按 A->B->C 顺 
序 写 入 新 数据 ， 但 是 这 是 间歇 性 写 入 ， 能 够 保证 一 旦 
开始 更 新 A， 那 么 后 续 必定 更 新 B 和 C， 这 一 轮 更 新 结 
束 后 ， 可 能 经 过 不 定 的 时 间 后 又 开始 更 新 一 轮 。 线 程 
2 不 断 地 读 入 A/B/C 的 值 并 做 后 续 处 理 。 运 行 环境 : 


支持 处 理 器 一 致 性 的 多 核心 处 理 器 。 实 现 思路 : 线 
程 2 不 断 地 读 出 C 并 与 上 一 次 的 C 进 行 比较 ， 如 果 有 变 
化 ， 则 证 明 C 已 经 被 更 新 了 。 由 于 该 处 理 器 可 以 保证 
单个 核心 发 出 的 所 有 写 更 新 都 按 序 到 达 ， 所 以 C 被 更 
新 了 ， 由 此 可 以 证 明 A 和 B 也 早已 被 更 新 了 ， 则 线程 2 
再 读 出 A 和 B， 完 成 这 一 轮 的 数据 接收 和 处 理 。 可 以 
看 到 ， 这 两 个 线程 既 没 有 使 用 互 斥 锁 ， 也 没有 使 用 访 
存 屏障 就 可 以 保证 时 空 一 致 性 。 

当然 ， 上 述 程序 的 实用 性 不 大 。 比 如 ， 如 果 线 
程 2 还 没 来 得 及 将 某 轮 更 新 值 全 部 读 出 之 前 ， 线 程 1 再 
次 更 新 ， 此 时 就 会 产生 漏 读 而 导致 错乱 ， 所 以 在 实际 
的 程序 中 ， 面 对 共享 访问 几乎 都 要 使 用 锁 机 制 。 在 锁 
住 了 临界 区 变量 之 后 ， 就 可 以 利用 CPU 提供 的 原生 保 
序 规则 ， 决 定 是 否 有 必要 再 使 用 访 存 屏障 。 比 如 上 述 
设计 思路 中 ， 如 果 线 程 2 决定 读数 据 之 前 先 加 锁 ， 再 
来 测试 C 是 否 已 变化 ， 线 程 1 那 边 就 可 以 不 用 访 存 屏 
障 来 向 线程 2 同步 数据 了 。 但 是 这 样 依然 不 实用 ， 因 
为 一 旦 线程 1 更 新 了 数据 ， 线 程 2 抢 到 锁 之 前 ， 又 被 线 
程 1 抢 到 锁 ， 数 据 又 被 更 新 了 ， 那 么 线程 2 就 会 漏 读 
整个 这 轮 数 据 ， 导 致 丢 数 据 错乱 。 解 决 办 法 是 采用 
轮 询 调度 锁 (Round Robin Lock) ， 如 果 上 次 是 线程 
1 加 的 锁 ， 那 么 这 次 线程 1 就 不 能 加 锁 ， 必 须 让 线程 2 
加 锁 ， 这 样 就 可 以 实现 一 收 一 发 步调 一 致 了 。 具 体 实 
现 是 额外 设置 一 个 也 位 于 临界 区 内 (也 是 要 加 锁 才 能 
访问 ) 的 标志 变量 M， 专 门 记录 上 一 次 是 谁 加 的 锁 ， 
比如 M=0 表 示 上 一 次 线程 1 加 的 锁 ，M=1 表 示 上 一 次 
是 线程 2 加 的 锁 。 每 次 某 个 线程 加 锁 之 后 ， 首 先 检查 
M 的 值 判断 上 一 次 谁 加 的 锁 ， 如 果 是 自己 加 的 ， 证 明 
根本 没有 给 对 方 机 会 自己 就 又 接着 抢 到 了 锁 ， 则 立即 
解锁 ， 然 后 再 择机 加 锁 ; 如 果 M 的 值 表示 上 一 次 是 对 
方 加 的 锁 ， 则 本 次 可 以 放心 使 用 临界 区 ， 处 理 完 后 ， 
将 M 值 更 改 为 自己 ， 然 后 解锁 。 显 然 ， 利 用 这 个 思 
路 ， 可 以 实现 多 个 线程 按照 任意 给 定 的 顺序 抢 到 锁 、 
进入 临界 区 、 解 锁 退 出 ， 只 要 在 标志 M 上 下 功夫 就 可 
以 了 。 比 如 让 M 中 的 多 个 位 表示 某 种 序列 ， 如 线程 编 
号 ， 如 果 4 个 线程 必须 按照 1 一 3 一 2 一 4 的 顺序 进入 临 
界 区 的 话 ， 每 个 线程 加 锁 后 根据 M 的 值 以 及 自己 线程 
的 值 ， 就 可 以 判断 自己 这 次 进来 是 否 合适 ， 不 合适 就 
说 声 “ 抱 欢 ， 不 是 时 候 ， 回 见 ! ”。 

这 又 引出 一 个 问题 ， 互 斥 锁 是 大 家 一 锅 粥 乱 抢 ， 
完全 无 序 地 争 抢 来 决定 谁 挤 进 临界 区 。 而 上 述 做 法 显 
然 要 求 每 个 线程 按照 一 定 的 顺序 ， 比 如 轮流 或 其 他 某 
种 顺序 进入 临界 区 ， 这 种 能 够 实现 有 序 进入 临界 区 的 
锁 机 制 ， 称 为 同步 锁 /同步 机 制 。 互 斥 锁 只 解决 线程 
无 冲突 进入 临界 区 ， 也 就 是 不 会 有 两 个 人 挤 进 同 一 个 
门 ， 而 同步 锁 在 保证 无 冲突 前 提 下 ， 还 解决 了 谁 应 该 
先进 门 ， 谁 后 进门 ， 这 就 叫 线程 同步 。 同 步 的 方式 有 
很 多 ， 有 兴趣 自行 学 习 。 不 管 是 什么 锁 ， 什 么 同步 机 
制 ， 它 们 底层 多 数 都 是 使 用 硬件 提供 的 基本 的 带 锁定 


信号 的 指令 来 实现 的 。 

下 面 我 们 就 来 看 一 下 ， 利 用 带 锁 指令 以 及 访 存 屏 
障 这 两 大 武器 如 何 去 解 决 前 文中 提出 的 那些 时 序 错乱 
问题 。 


6.8.4 ”解决 延迟 到 达 错乱 问题 


如 果 要 求 某 个 核心 做 的 变更 能 够 被 其 他 核心 瞬间 
〈 即 0 延迟 ) 看 到 的 话 ， 从 人 类 现 有 的 理论 物理 和 工 
程 上 来 讲 都 是 做 不 到 的 。 

但 是 ， 数 字 电路 状态 的 改变 周期 是 一 个 时 钟 周 
期 ， 只 要 能 够 在 一 个 核心 时 钟 周期 内 将 数据 同步 到 对 
方 ， 那 么 ， 在 下 一 个 时 钟 周期 边沿 到 来 时 ， 对 方 锁定 
住 的 就 是 最 新 的 数据 了 。 而 对 于 当前 的 数字 电路 而 
言 ， 如 果 CPU 核 心 频率 为 吉 赫兹 级 别 ， 那 么 一 个 时 钟 
周期 为 纳 秒 级 别 ， 远 高 于 信息 同步 所 需要 的 时 间 ; 
也 就 是 说 ， 理 论 上 ， 仅 仅 是 理论 上 ， 在 一 个 时 钟 周 
期 内 将 数据 同步 到 其 他 核心 的 寄存 器 是 可 行 的 。 我 
们 将 能 够 实现 这 种 单 时 钟 周期 内 完成 CC 缓存 一 致 
PE) 同步 的 访 存 时 序 模型 称 之 为 严格 一 致 性 Strict 
Consistency) 。 其 与 最 终 一 致 性 的 区 别 在 于 : 后 者 要 
求 0 时 延 ， 而 这 违反 当前 宇宙 的 时 间 观 ， 前 者 将 时 延 
要 求 在 一 个 时 钟 周期 内 ， 理 论 上 可 行 ， 但 是 不 得 不 降 
低 时 钟 频率 ， 拉 长 时 钟 周期 以 便 数据 完成 同步 ， 所 以 
实际 中 并 没有 商用 意义 。 

这 在 工程 上 也 是 无 意义 的 ， 因 为 多 个 核心 之 间 
的 互联 网 络 如 果 做 到 一 个 周期 内 同步 数据 ， 那 么 用 于 
数据 同步 的 所 有 电路 都 需要 做 在 同一 块 超大 型 组 合 逻 
辑 电路 中 ， 那 么 其 运行 频率 就 会 非常 低 。 比 如 ， 极 
端 地 说 ， 任 何 数字 电路 对 于 1 Hz 的 频率 而 言 ， 做 到 
一 秒 内 数据 同步 都 不 是 问题 ， 但 是 你 不 可 能 去 购买 
运行 频率 只 有 1 Hz 的 CPU。 电 路 规模 越 大 ， 距 离 越 
大 ， 越 复杂 ， 频 率 越 做 不 高 ， 也 就 失去 了 意义 。 另 


03 
其 他 代码 
Load 地 址 b БИВА 
Load 地 址 a 寄存 器 B 


核 G1 
Stor | 100 а 


核心 2 
Load 地 址 a 寄存 器 A 
| Stori 200 地 址 b 


核心 1 
Stor | 100 地 址 a 


上 
Load 地 址 a ЖИВА 
Stor_i 200 地 址 b 


Load 地 址 b 奇 存 器 A 
Load 地 址 a 寄存 器 B 


图 6-133 ”利用 锁 和 屏障 解决 同步 问题 示意 图 
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外 ， 如 果 是 多 个 CPU 芯片 同时 运行 ， 每 个 CPU 的 时 
钟 相位 是 不 同 的 ， 运 行 频率 也 可 能 有 所 不 同 ， 要 在 
它们 之 间 做 到 时 钟 级 同步 ， 更 是 难 上 加 难 。 所 以 ， 
瞬间 同步 数据 是 无 法 满足 的 ， 这 是 一 个 无 法 逾越 的 
限制 。 

不 排除 将 来 采用 光 逻 辑 门 器 件 时 或 许可 以 缓解 这 
个 限制 。 迄 今 为 止 也 没有 任何 商用 CPU 可 以 从 硬件 层 
面 保证 这 种 多 CPU 核心 之 间 在 内 部 寄存 器 级 别 的 、 与 
新 数据 生成 过 程 处 在 同一 个 时 钟 周 期 内 完成 同步 到 所 
有 目标 核心 的 、 严 格 的 访 存 时 序 一 致 性 。 这 种 基于 目 
前 数字 电路 工程 难以 实现 ， 或 者 说 实现 了 也 没有 实用 
意义 的 最 完美 的 时 序 一 致 性 ， 由 于 要 求 数据 同步 在 单 
个 时 钟 周期 内 完成 ， 所 以 ， 要 想 实现 严格 一 致 性 ， 没 
门 儿 ; 达到 0 延迟 ， 无 解 。 

但 是 ， 延 迟到 达 无 可 大 惊 小 怪 ， 关 键 看 你 的 程序 
是 如 何 访问 共享 变量 的 。 如 果 要 做 到 线程 1 写 入 某 个 
地 址 新 数据 ， 线 程 ? 再 次 访问 时 一 定 要 看 到 最 新 的 ， 
那么 首先 你 得 使 用 上 文中 介绍 过 的 互 斥 锁 来 让 这 两 个 
线程 共享 访问 临界 区 中 的 共享 资源 ， 其 次 你 需要 使 
用 一 个 访 存 屏障 ， 在 抢 到 锁 的 线程 解锁 时 ， 加 上 一 
个 Barrier 函 数 让 核心 执行 屏障 指令 确保 同步 ， 这 就 可 
以 了 。 

现在 我 们 来 解决 图 6-126 中 提出 的 那个 延迟 到 达 
的 问题 。 如 图 6-133 所 示 ， 左 上 和 角 为 原 图 照搬 过 来 作 
为 参考 。 右 上 角 所 示 为 增加 访 存 屏障 指令 ， 亡 图 解决 
这 个 问题 ， 但 是 仔细 推敲 发 现 难以 实现 ， 因 为 fence 类 
指令 只 能 约束 到 自己 ， 约 束 不 了 别人 。 如 图 左下 角 所 
示 ， 纵 使 如 上 了 屏障 ， 也 还 必须 要 让 这 三 个 线程 按照 
这 种 时 间 线 时 序 来 运行 ， 才 能 保障 拿 到 最 新 的 数据 。 
但 是 多 个 核心 之 间 什 么 时 候 运行 哪个 线程 根本 是 不 可 
控 的 ， 所 以 ， 还 需要 再 加 上 一 个 同步 点 ， 也 就 是 利用 
锁 的 机 制 来 让 三 个 线程 达到 时 序 同 步 ， 图 右 下 角 所 示 
为 最 终 的 解决 方案 。 


核心 3 

其 他 代码 

Load 地 址 b ВАА 
у Load 地 址 a 寄存 跨 B 


核心 1 
Stor_i 100 6а 


Sins Stor 1200 地 址 b 


核心 2 

| Load 地 址 a 寄存 器 A 
核心 1 

Lock(1~2) 其 他 代码 

Lock(2~3) 
Load 地 址 3 ЕВА Load 地 址 b 寄存 器 A 
Unlock(1-2) Load 地 址 a 寄存 器 B 
Lock(2~3) у Unlock(2~3) 
Stor i 200 地 址 b 
Sfence 


Lock(1~2) 
Stor і 100 地 址 a Sfence 
Sfence 


Unlock(1~2) 


Unlock(2-3) 
1-2: 用 于 控制 核心 1 和 2 之 间 的 互 斥 锁 2-3 : 用 于 控制 核心 和 和 3 之 间 的 互 斥 锁 


加 本 本 本 要 四 大 话 计算 机 一 一 计算 机 系统 底层 架构 原理 极限 剖析 


思考 一 个 问题 ，Sfence 指 令 能 否 放 到 Unlock 后 
面 ? 也 就 是 先 把 解锁 〈 把 锁 变量 改 成 1) ， 再 等 待 
同步 完成 ? 这 样 是 不 可 以 的 。 从 图 6-129 左 侧 你 可 以 
看 到 ， 其 他 核心 正在 虎视 上 耽 耽 ， 一 旦 解 了 锁 ， 它 们 
可 能 会 立即 抢 到 锁 ， 即 刻 访 问 临界 区 。 如 果 先 解锁 
再 执行 Sfence， 对 方 核心 对 临界 区 的 访问 车 赶 在 了 
Sfence 执 行 完 之 前 ， 那 么 就 不 能 保证 对 方 拿 到 的 是 最 
新 数据 了 。 所 以 ，Sfence 不 执行 完 ， 锁 不 能 解 ， 药 不 
能 停 。 


6.8.5 解决 访问 冲突 错乱 问题 


访问 冲突 与 时 序 并 无 本 质 联 系 。 就 算 实现 了 理 
想 的 严格 一 致 性 ， 依 然 阻 止 不 了 两 个 核心 同时 发 起 
针对 同一 个 地 址 的 Stor 访 存 请 求 。 嗯 ? 这 种 场景 不 是 
要 加 锁 以 避免 多 核心 同时 写 入 同一 个 地 址 么 ? 是 的 。 
但 是 如 果 程序 出 了 bug 忘 了 加 锁 ， 锣 是 同时 发 出 了 同 
一 个 地 址 的 写 入 或 者 读 取 请 求 呢 ? 难 不 成 硬件 电路 
会 被 烧 掉 不 成 ? 所 以 ， 硬 件 从 基本 上 要 支持 这 种 情 
况 的 发 生 。 前 文中 说 过 ， 不 管 是 共享 总 线 还 是 Ring/ 
Crossbar， 也 不 管 是 用 集中 仲裁 器 或 者 分 布 式 各 自 仲 
裁 ， 这 些 仲 裁 过 程 都 会 把 冲突 的 访 存 请 求 绝对 串 行 
化 ， 多 个 请 求 会 被 有 先后 地 发 送 到 接收 访 存 请 求 节点 
的 前 置 FIFO 队 列 中 缓冲 。 然 而 ， 硬 件 在 仲裁 的 时 候 
可 能 会 随机 选择 一 个 请 求 排 在 队列 前 面 ， 这 样 就 会 乱 
序 。 所 以 ， 依 然 需要 在 上 层 对 临界 区 中 的 共享 资源 进 
行 互 斥 访问 。 

现在 我 们 来 解决 图 6-127 中 的 那个 访问 冲突 问 
题 。 原 图 照搬 到 图 6-134 左 侧 。 有 了 上 面 的 经 验 ， 
你 应 该 可 以 较 快 地 判断 出 应 该 在 哪里 插入 对 应 的 同 
步 点 了 。 其 实 ， 加 锁 就 足以 解决 访问 冲突 问题 ， 但 是 
想 进 一 步 解决 时 序 一 致 性 问题 还 是 得 靠 访 存 屏障 。 

如 果 CPU 提 供 原生 的 Stor 指 令 按 序 执行 的 话 ， 上 
面 的 Sfence 指 令 其 实 是 没 必要 的 。 比 如 ，Stor 寄存 器 A 
地 址 3， 以 及 Unlock 函 数 中 对 锁 变量 的 更 新 ， 都 是 Stor 
类 指令 ， 所 以 Stor 寄存 器 A 地 址 a 指令 的 结果 一 定 先 于 
Unlock 的 结果 到 达 对 方 并 让 对 方 看 到 ， 这 样 ， 在 对 方 
执行 LockO 的 时 候 ， 如 果 Unlock 的 结果 已 到 达 ， 那 么 


核心 1 核心 2 
Load 地 址 a 寄存 器 A Load 地 址 a 寄存 器 A 
Inc 寄存 器 A Inc 寄存 器 A 
Stor 寄存 器 A 地 址 a Stor 寄存 器 A 地 址 a 


图 6-134 利用 锁 和 屏障 解决 访问 冲突 问题 示意 图 


Load 进 来 的 一 定 是 锁 变量 的 最 新 数据 (已 解锁 ) ， 此 
时 就 会 执行 Load 地 址 a 寄存 器 A 指令 ， 加 载 到 的 地 址 a 
也 必然 是 最 新 数据 ， 因 为 排 在 Stor 寄存 器 A 地 址 a 之 后 
的 指令 结果 都 到 达 了 ， 之 前 的 一 定 也 到 达 了 。 幸 好 ， 

多 数 CPU 都 原生 提供 Stor 指 令 结果 的 按 序 到 达 。 


6.8.6 ”解决 提前 执行 测 错乱 问题 


这 里 建议 先 到 6.7.2.3 节 中 回顾 一 下 这 个 程序 的 
目的 。 
图 6-135 右 侧 为 分 支 预 测 提前 执行 导致 的 错乱 的 
解决 方案 。 锁 ， 一 定 要 用 ， 这 是 防止 访问 冲突 的 唯一 
办 法 了 。 

线程 2 中 增加 多 个 Noop 指 令 的 目的 是 刚刚 
Unlock0 又 Lock0)， 这 可 能 会 导致 线程 1 抢 到 锁 的 概率 
大 大 降低 ， 所 以 加 几 条 Noop 指 令 无 聊 地 呆 视 一 会 以 便 
给 线程 1 抢 到 锁 的 机 会 。 这 里 也 可 以 定 个 闹钟 ， 比 如 
调用 Sleep0 函 数 等 待 10 ms 时 间 ， 到 了 点 再 来 执行 后 续 
代码 。 可 以 看 到 在 线程 2 中 的 Load 地 址 Q 寄存 器 C 指 
令 之 前 ， 加 了 一 条 Mfence 屏 障 ， 确 保 就 算是 分 支 预测 
指令 提前 载 入 Jmpz_b 指 令 之 后 的 指令 执行 ， 当 执行 到 
Mfence 指 令 的 时 候 ， 也 会 强行 等 待 其 之 前 的 所 有 访 存 
指令 全 部 执行 完毕 和 缓存 同步 完毕 ， 这 样 ，Load 地 址 
Q 寄存 器 C 指 令 就 不 会 被 预先 执行 。 如 果 之 前 的 指令 
已 经 执行 完毕 ，Load 地 址 Q 寄存 器 C 指 令 才 继 续 得 以 
执行 ， 那 么 在 其 执行 时 地 址 Q 中 已 经 被 放 入 了 线程 1 写 
入 的 最 新 数据 ， 从 而 保证 了 同步 。 

思考 一 下 ， 这 个 场景 中 ， 如 果 把 线程 2 中 的 
Mfence 换 成 Sfence 是 否 可 以 ? 本 例 中 是 可 以 的 ， 但 是 
如 懂 薄 冰 。 这 里 面 与 CPU 提供 的 原生 时 序 保障 有 非 
常 大 的 关系 。 假 设 ，CPU 人 允许 将 Stor 指 令 提前 到 Load 
指令 之 前 执行 (当然 ， 必 须 没有 RAW 相 关 性 ) ， 再 
假设 Stor 寄存 器 A 地 址 OP 指令 被 提前 到 了 Lock0 之 前 
执行 ， 执 行 完 毕 后 ，Sfence 指 令 被 取 指 令 译 码 和 执行 
(假设 它 前 面 的 那 两 条 Load 指 令 尚 未 执行 完毕 ， 比 
如 缓存 Miss 等 原因 ) ，Sfence 执 行 过 程 中 会 检测 到 它 
之 前 所 有 的 Stor 已 经 执行 完了 ， 所 以 开始 执行 其 后 的 
Load 地 址 Q 寄存 器 C 指 令 ， 此 时 由 于 线程 1 可 能 还 尚 


核心 1 核心 2 
Lock() Lock () 
Load 地 址 a 寄存 器 A Load 地 址 a 寄存 器 A 
Inc 寄存 器 A Inc 寄存 器 A 
Stor 寄存 器 A 地 址 a Stor 寄存 器 A 地 址 a 


Sfence Sfence 


Unlock () Unlock () 


核心 1 
其 他 代码 


核心 2 
其 他 代码 

Stor 任务 指针 地 址 Q | x Load МАР ВИРА 

Inc 地 址 P Load ”地 址 OP ЕВ 

其 他 代码 Стр ЯВА ЭВ 

Jmpz b 3 

Load ”地 址 Q ”寄存 器 C 


其 他 代码 


核心 1 


第 6 章 多 处 理 器 微 体系 结构 一 一 多 核心 与 缓存 配 再 本 二 要 


核心 2 


其 他 代码 其 他 代码 


Lock() Unlock() 
Stor 任务 指针 地 址 Q 多 个 Noop 
Inc 地 址 P Lock() 
Sfence Load ВНР ”寄存 器 A 
Unlock( ) 


其 他 代码 


Load ”地 址 OP ”寄存 器 B 
Стр ЗА 寄存 器 B 
Jmpzb6 

Stor ”寄存 器 A 
Mfence 

Load ”地 址 Q SFC 
Unlock( ) 

其 他 代码 


图 6-135 ”解决 分 支 预 测 导致 的 错乱 


未 把 Q 值 更 新 ， 从 而 线程 2 可 能 预先 载 入 Q 的 旧 值 ， 虽 
然 这 个 概率 微乎其微 ， 因 为 核心 2 的 流水 线 几乎 不 可 
能 超前 这 么 多 步 把 Q 值 载 入 了 寄存 器 C， 但 是 只 要 概 
率 不 为 零 ， 就 必须 解决 。 如 果 是 这 样 ， 那 就 不 能 换 成 
Sfence， 必 须 使 用 Mfence， 因 为 Mfence 会 等 上 面 那 两 
条 Load 也 执行 完 ， 而 这 两 条 Load 对 于 后 面 的 判断 跳 转 
很 关键 ， 这 样 就 不 会 有 问题 。 

但 是 幸运 的 是 本 例 中 的 Stor 寄存 器 A 地 址 OP 指令 
是 不 会 被 提前 到 Load 地 址 P 寄存 器 A 指令 之 前 的 ， 因 
为 它们 在 寄存 器 A 产 生 了 RAW 相关 。 所 以 本 例 中 是 可 
以 替换 为 Sfence 的 。 但 是 假设 我 们 把 Stor 寄存 器 A 地 
址 OP 这 条 指令 挪 到 Load 地 址 Q 寄存 器 C 下 方 ， 程 序 逻 
辑 没有 影响 ， 但 是 此 时 就 无 论 如 何 也 不 能 把 Mfence 换 
成 Sfence 了 。 

实际 中 ， 程 序 员 之 神 编 译 器 会 综合 根据 程序 逻 
辑 、CPU 的 原生 时 序 模型 等 因素 判定 具体 使 用 什么 指 
令 代价 最 小 ， 性 能 最 高 。 


6.8.7 解决 乱 序 执行 错乱 问题 


核心 1， 其 他 代码 ; Stor_i 100 地 址 a; Load 地 址 b 寄存 器 
А; ”其 他 代码 ; 

核心 2。 其 他 代码 。 Stor i 200 地 址 b; Load 地 址 a 寄存 
ЖА; ”其 他 代码 ; 


很 明显 ， 上 述 代 码 中 需要 防止 乱 序 执行 ， 而 且 要 
防止 访问 冲突 ， 还 得 用 到 锁 和 屏障 这 两 员 大 将 ， 只 是 
存在 将 它们 放置 在 哪里 的 问题 。 需 要 改 为 : 


核心 1: 其 他 代码 ; 


Lock( ); Stor_i 100 地 址 a; Sfence; 


Unlock( ); Load 地 址 b 寄存 器 A; 其 他 代码 ; 

核心 2 其 他 代码 ， Lock( ); Stor_i 200 地 址 b; Sfence; 
Unlock( ); Load 地 址 a 寄存 器 A; 其 他 代码 ; 
6.8.8 小 结 

只 要 变量 是 共享 的 ， 除 非 经 过 6.8.3 节 中 所 描述 的 
精确 设计 ， 几 乎 都 需要 加 锁 来 保证 访问 不 冲突 。 解 锁 
前 ， 别 忘 了 下 一 剂 访 存 屏障 的 猛 药 确保 对 方 拿 到 锁 之 
后 看 到 的 是 最 新 内 容 ， 至 于 要 多 狐 ， 又 得 看 具体 场景 
了 。 自 旋 锁 非常 耗费 资源 ， 因 为 会 不 断 读 出 锁 变量 来 
判断 是 否 已 经 被 其 他 人 解锁 ， 此 时 CPU 会 全 速 循环 执 
行 。 有 很 多 其 他 的 更 高 效 的 实现 方式 ， 在 此 不 再 过 多 
介绍 ， 可 自行 研究 。 但 不 管 是 怎么 封装 和 实现 的 锁 ， 
其 底层 都 是 利用 那些 基本 的 CPU 锁 指 令 制 成 的 。 此 
外 ， 还 有 一 些 更 高 层面 的 优化 ， 比 如 多 个 线程 无 序 争 
抢 锁 ， 可 能 某 个 或 者 某 几 个 线程 抢 到 锁 的 次 数 总 是 比 
其 他 线程 多 ， 这 由 很 多 因素 决定 ， 如 核心 处 于 访 存 网 
络 拓扑 中 的 位 置 、 访 存 网 络 的 仲裁 策略 ， 等 等 。 为 了 
保证 公平 性 ， 人 们 设计 了 一 些 辅助 流程 ， 比 如 抢 不 到 
锁 的 线程 排 个 队 ， 有 序 地 抢 锁 ， 在 队列 中 做 一 些 QoS 
让 某 些 线程 具有 抢 锁 优 先 级 。 这 就 像 火 车 上 的 洗手 间 
跟前 估计 总 有 几 个 人 在 倚靠 着 等 开门 ， 他 们 之 间 就 形 
成 了 一 个 先 来 先进 的 队列 。 

之 前 我 们 展示 的 都 是 汇编 代码 加 上 函数 名 混合 
的 伪 代 码 ， 但 是 编写 代码 时 总 不 能 总 是 用 汇编 语言 ， 
还 是 要 过 渡 到 高 级 语言 。 最 后 我 们 来 综合 地 看 一 小 段 
C 语 言 伪 代码 ， 如 图 6-136 所 示 。 线 程 2 使 用 new_ job _ 
atrived(O) 函 数 判断 是 否 有 新 的 工作 要 做 ， 如 果 有 ， 把 q 


到 大 话 计算 机 一 一 计算 机 系统 底层 架构 原理 极限 剖析 


变量 +1 指 向 新 工作 需要 处 理 的 数据 所 在 的 位 置 ， 然 后 
邓 变 量 ok 署 为 1。 线 程 1 循环 判断 ok 的 值 是 否 为 1， 如 
果 为 1， 调 用 executeO) 函 数 处 理 q 指 向 的 数据 ， 处 理 完 
后 ， 将 ok 署 为 0。 这 个 程序 的 目的 很 简单 ， 属 于 一 个 
由 线程 2 担任 生产 者 ， 线 程 1 担任 消费 者 的 模型 ， 它 们 
通过 ok 这 个 变量 来 相互 通告 新 工作 是 否 存在 、 是 否 完 
成 。 这 个 程序 看 上 去 挺 好 ， 但 是 问题 多 多 。 如 果 这 两 
个 线程 运行 在 两 个 不 同 的 核心 上 ， 对 于 变量 ok， 两 个 
线程 可 能 同时 发 起 访问 ， 会 导致 访问 冲突 。 现 在 你 可 
以 锻炼 一 下 ， 看 看 如 何 将 锁 和 屏障 插入 到 代码 中 的 正 
确 位 置 来 保证 这 个 程序 的 时 空 一 致 性 。 

如 图 6-136 所 示 ， 左 侧 为 没有 考虑 访 存 冲 突 时 的 
实现 ， 右 侧 则 是 完整 实现 。 嗯 ? 这 里 为 什么 没有 用 
到 Barrier 函 数 呢 ”难道 不 担心 解锁 后 对 方 拿 到 旧 数 据 
么 ? 说 对 了 ， 的 确 不 担心 。 因 为 ok 这 个 变量 中 存储 的 
内 容 仅仅 用 于 控制 ， 而 不 是 数据 〈 如 存款 余额 等 ) 。 
比如 线程 1 将 ok 变 为 0 之 后 ， 即 便 这 个 值 还 没有 同步 到 
线程 2， 线 程 1 就 又 开始 执行 后 续 代码 了 ， 也 就 是 跳 到 
循环 开始 检测 ok 是 不 是 为 1。 当 然 ， 对 于 核心 1 自己 来 
讲 ， 此 时 ok=0， 所 以 会 进入 sleep0 休 息 一 段 时 间 ， 然 
后 又 跳 回 到 循环 开始 ， 对 程序 逻辑 并 无 影响 。 而 在 一 
段 延迟 之 内 ， 线 程 2 依然 会 认为 ok=1， 因 为 0 还 没 同步 
过 来 ， 所 以 会 进入 Unlock()、Sleep0 然 后 跳 回 开头 继 
续 ， 直 到 0 被 传 过 来 ， 才 会 让 线程 进入 后 续 逻 辑 ， 整 
个 过 程 也 没有 逻辑 错误 。 所 以 根本 不 需要 用 到 Barrier 
操作 ，Barrier 操 作 会 拖累 性 能 ， 能 不 用 就 不 用 ， 锁 也 
是 。 那 么 有 人 问 了 ， 不 加 Barrier 没 问题 ， 但 是 加 了 
Barrier， 对 方 难道 不 会 更 快 地 看 到 新 数据 么 ? 

有 必要 郑重 严肃 地 提醒 一 下 : Barrier 做 的 并 不 是 
“赶紧 同步 ， 加 速 同步 过 去 ”。 当 更 改 某 个 数据 之 
后 ， 后 台 的 缓存 同步 已 经 是 在 全 速 进行 了 ， 并 不 会 被 
所 谓 “加速 ”， 人 家 从 来 就 没 懒 过 。Barrier 做 的 仅仅 
是 在 新 数据 尚未 完全 同步 到 其 他 核心 之 前 ， 自 己 不 
会 再 执行 后 续 访 存 指令 。 其 做 的 是 被 动 等 待 ， 而 不 
是 主动 鞭策 ， 其 只 约束 自己 的 执行 行为 ， 而 不 是 去 
管 他 人 闲事 的 。 切 记 ! 所 以 别 动不动 就 想 加 个 Barrier 


线程 1 : 线程 2 : 

while (1){ while(1){ 

If (ok=1) { If(ok=1) {sleep( ) ; continue;) 
execute(q); else If (пем job arrived()) { 
ок=0; } а=а+1; 

else (sleep(); continue;))} ок =1;)) 


妄图 “驱赶 ”一 下 数据 的 同步 ， 加 Barrier 要 看 自己 后 
续 的 访 存 指令 是 否 会 影响 一 致 性 。 本 例 中 ， 加 不 加 
Barrier， 线 程 2 都 会 在 一 个 固定 延迟 之 后 看 到 ok 变 为 
了 0， 起 不 到 任何 加 速效 果 。 

既然 如 此 ， 仔 细 观 察 图 6-135 右 侧 的 线程 1， 
Unlock() 上 方 的 Sfence 是 不 是 也 可 以 拿 掉 ? 咱们 那 时 
候 说 ， 解 锁 之 前 药 不 能 停 啊 。 但 是 如 果 假 设 拿 掉 它 ， 
那么 你 看 地 址 P 上 的 内 容 就 算 在 Unlock 执 行 之 后 一 个 
延迟 内 才 被 同步 到 核心 2， 也 不 会 影响 核心 2 的 程序 
逻辑 ， 因 为 P 也 是 用 来 存储 控制 信号 的 ， 而 非 实际 数 
据 。 那 就 拿 掉 它 ? 慢 着 。 你 再 仔细 看 看 ， 线 程 1 临界 
区 内 还 更 新 了 一 个 变量 ， 地 址 Q， 这 里 存 的 可 是 任务 
指针 ， 这 就 算数 据 了 ， 因 为 线程 2 会 用 这 个 指针 去 读 
对 应 的 数据 做 运算 。 那 么 你 现在 拿 掉 了 屏障 ， 如 果 解 
锁 之 后 ，P 没 同步 过 去 还 好 ， 线 程 2 不 会 认为 有 新 任务 
到 来 了 ， 而 如 果 P 同 步 过 去 了 ，Q 却 还 没有 同步 过 去 ， 
线程 2 通过 P 判 断 有 新 任务 ， 于 是 读 Q， 结 果 读 到 了 旧 
值 ， 执 行 错乱 。 所 以 ， 还 是 不 能 拿 掉 屏障 ? 非 也 ， 你 
再 仔细 想 想 ， 线 程 1 的 程序 步骤 中 ， 更 新 Q 早 于 更 新 
P， 按 照 主流 CPU 原生 提供 的 时 序 保障 ， 同 一 个 核心 
发 出 的 Stor 类 访 存 指令 结果 不 会 被 乱 序 地 被 其 他 核心 
看 到 〈 见 上 文中 提 到 的 处 理 器 一 致 性 的 解释 ) , Ж 
么 只 要 P 的 新 值 被 核心 2 看 到 ，Q 的 新 值 一 定 也 会 被 其 
看 到 ， 所 以 ， 最 终结 论 是 这 里 的 确 可 以 拿 掉 Sfence 指 
令 。 再 仔细 想 想 ， 如 果 把 Inc 地 址 P 和 Stor 任务 指针 地 
址 Q 这 两 条 指令 互 换 一 下 ， 程 序 罗 辑 无 影响 ， 但 是 此 
时 就 一 定 不 能 拿 掉 Sfence。 所 以 ， 如 何 编写 最 优 的 代 
码 ， 真 是 个 细致 活 。 
推论 * 


对 于 原生 支持 Stor 指 令 按 序 执行 的 CPU 而 言 ， 
在 使 用 锁 的 情况 下 ， 锁 定 了 临界 区 之 后 ， 对 临界 区 
的 所 有 和 更改， 在 对 方 抢 到 锁 之 前 ， 一 定 可 以 保证 已 
经 同步 到 了 对 方 ， 不 需要 使 用 屏障 。 但 是 并 不 是 所 
有 CPU 都 支持 Load 或 者 Load/Stor 整 体 按 序 访 问 ， 所 
以 如 果 有 Load 时 序 问题 ， 还 是 要 用 屏障 。 


线程 1 : 线程 2 : 

while (1){ while(1)[ 

Lock(); Lock() 

If (ok=1) ( 1ок=1) (Unlock( ); sleep( ); continue; 
ехесите(а); else If (new_job_arrived( )) { 

ok=0; а=а+1; 

Unlock( ); ) ok = 1: 

else continue;} Unlock();}} 


图 6-136 ”生产 者 -消费 者 简单 模型 


噶 完 了 锁 和 屏障 这 两 块 硬骨头 之 后 ， 咱 们 要 来 看 
看 空间 一 致 性 问题 是 怎么 解决 的 了 。 不 过 ， 空 间 一 致 
性 本 身 不 难 理解 ， 但 是 要 解决 它 ， 最 终 方案 简直 复杂 
得 让 你 不 忍 直 视 。 不 过 ， 冬 瓜 哥 还 是 决定 将 这 团 乱 麻 
一 根 根 解 开 来 给 你 看 。 


6.9 ”解决 多 核心 访 存 空间 一 致 性 问题 


有 了 锁 和 屏障 这 两 大 武器 ， 缓 存 空 间 一 致 性 要 做 
的 事情 反而 看 上 去 相对 简单 了 一 些 ， 那 就 是 ， 把 更 新 
的 数据 同步 给 所 有 其 他 核心 ， 让 它们 看 到 就 可 以 了 。 
至 于 过 多 久 才 会 被 看 到 ， 并 不 是 问题 ， 关 键 是 ， 最 
终 能 看 到 就 可 以 ， 把 延迟 问题 交 给 锁 和 屏障 来 解决 就 
好 。 不 过 ， 一 万 年 太 久 ， 只 争 朝夕 。 如 果真 的 一 万 年 
以 后 才 同 步 完 成 ， 那 么 一 条 fence 指 令 就 得 等 一 万 年 ， 
没 人 愿意 用 这 种 产品 的 ， 除 非 你 真爱 它 一 万 年 。 

所 以 ， 缓 存 一 致 性 同步 基本 上 就 是 努力 去 降低 同 
步 延 迟 ， 努 力 去 降低 发 送 到 外 部 网 络 中 的 数据 包 数 量 
和 频次 。 这 两 个 方向 看 似 简单 ， 其 实 为 了 实现 它们 ， 
不 得 不 引入 了 一 些 新 机 制 ， 而 这 些 新 机 制 又 会 再 次 产 
生 时 序 问题 ， 可 以 说 是 没完 没 了 。 本 节 ， 冬 瓜 哥 就 带 
领 大 家 去 哨 下 这 块 硬骨头 。 


6.9.1 基于 总 线 监听 的 缓存 一 致 性 实现 


共享 总 线 ， 除 了 它 速度 慢 、 效 率 低 、 耗 电大 、 
接 入 节点 数量 少 之 外 ， 其 他 全 是 优点 。 其 中 一 个 优点 
就 是 ， 总 线 是 无 隐私 的 ， 任 何 核心 发 出 了 什么 样 的 访 
存 指令 ， 访 问 哪个 地 址 ， 对 其 他 核心 都 暴露 无 疑 。 但 
是 咱们 说 了 ， 其 他 核心 只 能 干 瞪眼 看 着 ， 因 为 它们 是 
仲裁 失败 者 ， 无 权 向 总 线 发 数据 ， 但 是 它们 可 以 接收 
啊 ， 因 为 共享 总 线 其 实 就 是 并 联 在 一 起 的 导线 ， 你 不 
让 人 说 话 ， 人 家 听 还 是 可 以 的 。 既 然 这 样 ， 如 果 有 
多 个 核心 同时 缓存 了 地 址 A 中 的 数据 a， 当 某 个 核心 
将 a 更 改 为 b 时 ， 它 只 要 冲 着 总 线 喊 上 一 嗓子 : “兄弟 
们 ! 地 址 A 的 数据 现在 是 b 了 啊 ! ”其 他 核心 听 到 这 
个 消息 之 后 ， 就 可 以 各 自 将 自己 的 缓存 中 对 应 地 址 A 
的 内 容 替 换 为 b。SDRAM 控 制 器 也 挂 接 在 总 线 上 ， 
SDRAM 听 到 消息 ， 也 会 将 其 同步 到 RAM 中 ， 当 然 也 
可 以 选择 不 同步 ， 就 让 自己 这 里 是 旧 的 ， 再 有 人 读 自 
己 就 不 响应 了 ， 谁 有 新 数据 谁 响应 。 具 体 怎么 判断 自 
己 该 不 该 响应 ? 或 者 是 其 他 某 些 机 制 ? 这 个 咱们 一 步 
步 往 下 看 你 就 知道 了 。 另 外 ， 拥 有 最 新 数据 的 那个 核 
心 是 不 是 也 可 以 吃喝 一 声 : “地 址 A 的 最 新 数据 在 我 
这 呢 ， 你 们 那里 之 前 的 版 本 都 作废 吧 ! ”貌似 也 是 可 
以 的 。 

这 里 你 心底 里 可 能 流 过 一 个 问题 然后 又 转瞬 即 逝 
了 : 如 果 其 他 核心 尚未 收 到 b 之 前 就 需要 读 取 地 址 A 怎 
么 办 ? 如 果 其 他 核心 也 更 新 了 地 址 A 怎么 办 ? 答案 上 
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文中 已 经 给 出 了 ， 只 要 用 锁 ， 同 步 完 之 前 不 解锁 〈 靠 
Barrier 保 证 这 一 点 ， 当 然 也 可 以 用 特殊 程序 设计 来 避 
免 用 Barrier， 上 文中 也 给 出 过 例子 ) ， 那 么 其 他 核心 
是 不 可 能 同时 发 起 对 地 址 A 的 更 新 的 ， 也 是 读 不 到 旧 
数据 的 ， 到 此 你 应 该 先 暂时 放下 时 序 一 致 性 的 思想 包 
裕 。 不 过 ， 你 会 看 到 在 下 文中 我 们 不 得 不 又 一 次 背 上 
这 个 包 裕 。 


缓存 的 同步 也 是 以 缓存 行 而 不 是 单个 地 址 为 粒 
度 的 。 那 意味 着 ， 只 要 某 个 缓存 行 中 哪怕 有 一 个 字 
节 的 变化 ， 那 么 这 个 缓存 行 必须 整体 被 同步 到 其 他 
核心 缓存 中 。 这 也 是 为 了 降低 硬件 电路 的 成 本 。 


其 他 核心 的 这 种 监听 最 新 内 容 并 同步 各 自 缓存 
的 行为 被 称 为 嗅 探 (snoop) 。 那 么 ， 具 体 应 该 由 
谁 来 负责 广播 和 嗅 探 ， 又 由 谁 在 嗅 探 到 对 应 的 信息 
之 后 将 新 的 缓存 行 数据 更 新 到 缓存 中 或 者 从 缓存 中 
作废 对 应 的 缓存 行 呢 ? 显然 ， 需 要 设立 一 个 新 的 部 
件 ， 我 们 称 之 为 ccAgent，ec 表 示 缓 存 一 致 性 〈Cache 
Coherency) 。ccAgent 需 要 与 最 后 一 层 私有 缓存 控制 
器 直接 相连 ， 或 者 直接 被 包含 在 缓存 控制 器 内 部 。 因 
为 全 局 共享 的 LLC (Last Level Cache ) 不 会 产生 缓存 
一 致 性 问题 ， 因 此 ccAgent 要 去 更 新 /作废 的 是 每 个 核 
心 的 私有 缓存 。 

下 面 我 们 具体 介绍 上 述 的 这 两 种 机 制 : Snarfing/ 
Write Sync 和 Write Invalidate。 


6.9.1.1 Snarfing/Write Sync 方式 


该 方式 的 思路 就 是 任何 一 个 核心 只 要 发 生 了 Stor 
类 操作 ， 数 据 被 从 流水 线 寄存 器 写 到 了 Stor Buffer 或 
者 L1 缓 存 中 ，ccAgent 就 要 立即 将 这 份 数 据 传送 到 核 
心 外 部 访 存 总 线 上 。 如 果 是 多 个 物理 CPU 芯片 组 成 的 
系统 ， 那 么 除了 要 发 送 到 芯片 内 部 多 核心 间 的 访 存 总 
线 上 ， 也 还 要 发 送 到 片 外 的 访 存 总 线 上 广播 到 其 他 
CPU 芯片 ， 而 后 者 从 片 外 总 线 收 到 该 数据 ， 会 向 片 内 
总 线 传 送 ， 从 而 让 每 个 片 内 核心 都 收 到 。 收 到 该 数据 
的 所 有 核心 的 ccAgent 都 要 去 查找 各 自 的 L2、L1 缓 存 
以 及 Stor Buffer 中 是 否 有 数据 落 入 了 该 缓存 行 地 址 范 
НА: 有 ， 则 将 新 数据 更 新 进去 并 发 送 应 答 消息 W 
有 ， 则 只 发 送 应 答 消息 即 可 。 


对 于 缓存 来 讲 ， 不 管 是 从 其 他 核心 广播 同步 过 
来 的 数据 还 是 本 地 核心 对 缓存 的 写 入 请 求 ， 这 些 都 
是 请 求 ， 它 们 会 按照 一 定 的 优先 级 策略 (通常 是 
优先 满足 其 他 核心 过 来 的 外 来 同步 数据 ) 被 写 入 到 
ив. 


“Snarf” (ЖЗИ) 就 是 指 这 个 意思 ， 每 


到 大 话 计算 机 一 一 计算 机 系统 底层 架构 原理 极限 剖析 


一 份 新 数据 都 直接 同步 给 所 有 人 ， 送 到 它们 跟前 : 
给 我 吃 ! 这 种 思路 又 被 称 为 Write Sync， 或 者 Write 
Update。 

此 外 ， 发 出 数据 更 新 同步 的 ccAgent 必 须要 知道 
所 有 核心 的 同步 是 否 已 经 完成 。 这 是 必须 的 ， 因 为 
此 为 各 种 屏障 指令 的 执行 基础 。 既 然 如 此 ， 每 个 核 
心 上 的 ccAgent 在 完成 对 自己 处 的 缓存 的 更 新 /作废 之 
后 ， 就 必须 向 总 线 上 发 出 一 个 Acknowledgement (fj 
称 ACK) 消息 ， 其 中 携带 有 发 送 者 的 网 络 ID、 对 应 的 
缓存 行 地 址 、 完 成 状态 等 信息 。 发 送 更 新 的 ccAgent 
要 维护 一 个 表 ， 记 录 那 些 已 经 发 出 去 但 是 还 没收 到 应 
答 的 缓存 行 地 址 索引 ， 以 及 都 有 哪些 核心 已 经 送 回 了 
АСК 〈 可 以 用 一 个 bitmap 来 记录 这 个 ) 。 这 个 表 被 存 
在 ccAgent 内 部 的 一 个 叫 作 TSHR (Transaction Status 
Handling/Holding Register) 的 寄存 器 组 中 。 还 记得 前 
文中 介绍 过 的 MSHR 么 ?和 那个 类 似 ， 但 是 MSHR 保 
存 的 是 Miss 的 请 求 记录 和 状态 ，TSHR 保 存 的 是 尚未 
完成 的 缓存 同步 操作 记录 和 状态 ， 有 具体 的 机 制 和 原理 
也 都 是 类 似 的 ， 都 用 状态 字段 的 信号 来 控制 电路 做 出 
不 同 动作 ， 在 此 不 再 袭 述 。 


每 一 笔 同步 消息 都 必须 等 待 所 有 核心 回应 。 收 
到 同步 消息 的 核心 需要 忙活 好 一 阵子 ， 包 括 查询 、 
更 新 缓存 ， 这 个 时 间 会 比较 长 。 所 以 ，ccAgent 可 以 
把 需要 广播 的 消息 队列 化 异步 处 理 ， 接 收 方 ccAgent 
也 设置 一 个 接收 队列 ， 所 有 的 CC 请 求 先 缓冲 下 来 ， 
再 处 理 。 


RAM 控 制 器 也 是 连接 在 共享 总 线 上 的 一 个 部 件 ， 
会 收 到 其 他 核心 同步 过 来 的 信号 和 数据 ， 所 以 它 可 以 
一 并 将 RAM 中 对 应 该 地 址 的 数据 副本 更 新 ， 所 有 数 
据 都 是 最 新 的 。 既 然 这 样 ， 那 就 不 需要 给 缓存 行 保 
存 “Dirty” 这 个 状态 了 ， 因 为 所 有 更 新 都 会 同步 到 
RAM， 都 是 干净 的 。 但 是 一 般 来 讲 ， 不 会 这 么 设计 ， 
因为 这 会 浪费 RAM 的 带宽 。RAM 平 时 还 要 接受 其 他 
的 读 写 请 求 ， 每 次 还 得 从 总 线 上 同步 新 数据 进来 的 话 
显得 没有 必要 ， 既 然 有 Write Back 模 式 的 缓存 在 前 方 
顶 着 ， 自 己 就 没 必 要 时 刻 与 前 方 同步 了 。 

但 是 Write Sync 方 式 无 疑 是 非常 耗费 总 线 流量 
的 ， 不 太 划 算 。 


6.9.1.2 Write Invalidate 方 式 


拥有 最 新 数据 的 核心 如 果 仅仅 发 出 作废 通知 而 
不 是 把 新 数据 传 过 去 ， 其 他 核心 的 缓存 控制 器 会 判断 
广播 过 来 的 消息 并 查询 自己 缓存 内 是 否 存在 对 应 的 缓 
存 行 ， 有 则 将 其 置 为 Invalid 状 态 ， 也 就 是 清空 该 行 ; 
如 果 没 有 ， 则 无 动作 。 在 接收 到 作废 通知 的 ccAgent 
作废 其 本 地 的 对 应 缓存 行 之 后 ， 当 该 核心 后 续 真 的 要 


读 取 或 更 改 该 行 的 时 候 ， 自 然 就 会 不 命中 ， 此 时 该 核 
心 就 会 发 出 一 条 请 求 ， 拥 有 最 新 数据 的 核心 对 应 的 
ccAgent 收 到 请 求 之 后 就 会 把 最 新 数据 传 过 去 。 这 样 
显然 更 节省 总 线 流量 ， 降 低 了 霸占 总 线 的 时 间 ， 人 性 能 
也 会 更 高 。 

这 样 一 来 ， 其 他 核心 在 各 自 缓存 中 删除 对 应 的 数 
据 ， 必 然 会 导致 下 次 再 访问 该 数据 时 产生 不 命中 。 不 
命中 ， 就 得 向 总 线 发 送 读 请 求 将 数据 拿 过 来 。 那 么 ， 
谁 来 响应 这 个 读 请 求 ? 当然 是 谁 有 该 行 最 新 的 数据 谁 
响应 。 谁 有 最 新 数据 ? 这 个 当然 是 刚才 把 其 他 核心 对 
应 缓存 行 作废 的 那个 核心 。 那 么 ， 刚 才 是 谁 把 其 他 核 
心 作废 了 的 ? 就 刚才 那个 啊 ， 告 诉 你 ， 再 问 我 就 真 不 
耐烦 了 ! 刚才 那个 是 哪个 ? 额 ~~~ 这 还 真是 个 问题 ! 
你 知道 是 哪个 ， 那 是 因为 你 脑子 里 刚才 暂 存 了 它 ， 记 
住 了 。 核 心 的 ccAgent 也 必须 记 住 “我 都 发 过 哪些 缓 
存 行 的 作废 广播 ”， 形 成 一 个 Invalidation List， 存 储 
在 一 组 寄存 器 中 。 每 次 ， 每 个 核心 从 总 线 上 嗅 探 到 任 
何 读 请 求 ， 都 要 查 自己 的 这 个 表 ， 如 果 命中 ， 则 到 缓 
存 中 将 数据 读 出 送 回 总 线 。 同 理 ， 接 收 到 其 他 核心 发 
来 的 作废 请 求 之 后 ， 本 地 ccAgent 除 了 去 缓存 中 作废 
对 应 行 之 外 ， 还 得 查 一 下 这 个 表 ， 将 对 应 的 条 目 删 
掉 。 如 果 单独 设置 一 组 寄存 器 用 于 存放 这 个 表 ， 表 中 
得 存储 对 应 缓存 行 的 地 址 Tag， 太 浪费 。 缓 存 中 的 每 
一 行 都 有 各 自 的 元 数据 ， 其 中 包含 状态 字段 以 及 Tag 
字段 ，Tag 字 段 已 经 有 了 ， 所 以 ， 不 如 干脆 在 每 个 行 
的 状态 字段 中 增加 一 个 状态 以 表示 : “告诉 你 ， 就 我 
这 行 缓存 ， 其 他 核心 对 应 的 这 行 都 被 我 作废 了 。 有 瞧见 
没 ， 最 新 的 ! 独 一 份 ! ”我 们 给 这 个 状态 起 个 名 字 ， 
不 如 叫 它 Exclusive 状 态 ， 独 占 的 意思 。 


ccAgent 需 要 来 查 缓存 的 元 数据 ， 而 本 核心 内 
部 的 访 存 请 求 也 要 来 读 写 缓存 ， 也 要 来 查 元 数据 ， 
这 两 者 冲突 了 怎么 办 ? 对 性 能 影响 很 大 啊 ! 其 实 不 
然 ， 我 们 说 ， 写 必须 排队 事 行 化 ， 但 是 查询 操作 是 
读 操作 ， 人 家 ccAgent 只 是 去 看 看 而 已 ， 所 以 可 以 
使 用 带 有 多 个 读 端口 的 寄存 器 组 来 存储 缓存 行 元 数 
据 ， 这 样 可 以 并 行 操作 ， 如 图 6-137 所 示 。 
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图 6-137 多 端口 Tag 存 储 器 


核心 发 出 的 写 请 求 ， 与 核心 发 出 的 数据 同步 请 

求 ， 好 像 看 上 去 都 是 写 ， 没 区 别 ， 但 是 实际 上 必须 
分 开 对 待 。 常 规 的 写 请 求 ， 是 写 给 SDRAM 的 ， 比 
如 某 个 核心 将 缓存 中 的 脏 数 据 写 回 到 RAM， 这 些 数 
据 可 能 之 前 早已 被 同步 到 其 他 核心 缓存 了 ， 此 时 其 
他 核心 的 ccAgent 如 果 收 到 这 些 数据 又 去 做 一 遍 同 
步 ， 就 浪费 了 。 具 体操 作 是 靠 在 总 线 上 设置 单独 的 
“ 访 存 类 型 ”信号 线 ， 比 如 用 2 根 线 ， 可 以 表示 4 个 
类 型 : 常规 读 、 常 规 写 、CC 同 步 写 、Invalidate， 等 
等 。 这 样 ， 接 收 方 就 可 以 判断 这 个 信号 从 而 做 出 相 
应 动作 。 


W, НА. BA! 如 果 其 他 核心 发 起 读 请 
求 ， 而 你 应 答 了 该 请 求 ， 传 递 了 这 份 你 之 前 独占 的 数 
据 给 对 方 ， 那 么 此 时 这 份 数据 就 不 是 你 独占 了 ， 而 是 
你 和 对 方 都 持 有 一 份 副本 。 那 么 ， 如 果 再 有 核心 向 总 
线 上 请 求 读 这 个 行 ， 到 底 该 谁 响应 呢 ? 额 一 ， 这 问题 
还 真是 越 来 越 复杂 了 ! 

本 节 作为 一 个 开场 ， 是 不 是 颇具 代入 感 ， 可 以 看 
到 要 实现 缓存 一 致 性 ， 并 不 是 “只 要 同步 过 去 就 可 以 
了 啊 ” 这 么 简单 的 。 下 面 我 们 就 来 思考 一 下 除了 上 面 
说 的 “ 独 一 份 ”状态 之 外 ， 缓 存 行 到 底 还 应 该 有 哪些 
状态 以 及 在 什么 情况 下 会 变 为 什么 状态 ， 也 就 是 所 谓 
的 状态 机 。 


6.9.2 推导 MESIF 状 态 机 


我 们 从 头 彻底 演绎 一 下 。 共 享 总 线 架构 下 ， 共 有 
4 个 核心 /CPU， 采 用 Write Invalidate 方 式 做 CC 同步 。 
缓存 采用 Write Allocate + Write Back 模 式 。 加 电 之 后 
所 有 CPU 缓存 皆 空 。 

Ti 时 刻 。CPU 1 发 起 访 存 请 求 ， 由 于 缓存 不 命 
中 ， 缓 存 控制 器 向 总 线 发 出 读 入 缓存 行 A 的 读 请 求 。 

Ts 时 刻 。 该 请 求 被 所 有 其 他 核心 上 的 ccAgent 收 
到 ， 由 于 其 他 核心 的 缓存 也 都 是 空 的 ， 所 以 数据 一 定 
要 从 RAM 中 被 读 出 并 返回 ， 也 就 是 说 挂 接 在 总 线 上 的 
MC 必 须 接 受 这 个 读 请 求 。 但 是 ，MC 又 怎么 知道 当前 
其 他 核心 缓存 里 是 空 的 而 必须 由 自己 来 响应 呢 ? 所 有 
这 些 部 件 之 间 根 本 不 知道 彼此 的 状态 。 所 以 ， 最 终 的 
机 制 必须 是 这 样 : MC 不 得 已 只 好 每 次 都 做 好 准备 响 
应 ， 也 就 是 去 SDRAM 中 读 出 数据 ， 但 是 暂时 先 不 把 
数据 传递 回 总 线 ， 与 此 同时 ， 如 果真 的 命中 了 其 他 核 
心 的 缓存 ， 那 么 对 方 的 ccAgent 也 会 从 其 缓存 读 出 并 
返回 数据 到 总 线 。 通 常 ， 从 其 他 核心 的 缓存 返回 数据 
总 是 快 于 从 SDRAM 返 回 ， 因 为 核心 间 的 缓存 访问 的 
速度 远 高 于 RAM， 一 旦 对 方 ccAgent 返 回 数据 ， 那 么 
MC 嗅 探 到 之 后 ， 便 会 丢弃 刚刚 读 出 的 数据 或 者 取消 
本 次 读 RAM 的 操作 。 但 是 偶然 情况 下 ，RAM 先 读 出 
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来 准备 好 了 ， 但 是 对 方 ccAgent 虽 然 命中 了 其 后 的 缓 
存 ， 但 是 迟 迟 未 将 数据 返回 ， 那 么 此 时 MC 应 该 怎么 
办 呢 ? 设 定 一 个 超时 机 制 ? 还 是 只 要 数据 从 RAM 读 出 
就 返回 到 总 线 ? 这 两 个 都 不 行 ， 只 要 命中 在 其 他 核心 
的 缓存 ， 就 必须 从 缓存 里 把 数据 发 出 来 ， 因 为 RAM 中 
的 数据 可 能 是 旧 的 。 所 以 ， 机 制 必须 是 这 样 的 : 所 有 
核心 的 ccAgent 不 管 是 否 命中 ， 都 需要 给 出 应 答 ， 不 
命中 就 应 答 不 命中 ， 命 中 就 给 出 数据 ，MC 在 后 台 默 
默 地 收集 所 有 的 应 答 并 分 析 : 如 果 发 现 所 有 核心 都 应 
答 “ 我 这 没命 中 ”， 那 么 MC 才 会 跳出 来 把 准备 好 的 
数据 传送 到 总 线 上 应 答 本 次 请 求 ， 如 果 有 某 个 核心 应 
答 了 数据 ， 那 么 MC 就 静默 ， 并 删 掉 从 RAM 读 出 的 数 
据 或 者 取消 读 RAM (如 果 来 得 及 的 话 ) 。 


有 些 设计 采用 如 下 的 方式 完成 上 述 步骤 : 当 收 
到 其 他 核心 发 出 的 总 线 读 请 求 而 且 发 现在 自己 的 
缓存 命中 之 后 ， 该 核心 抢 到 总 线 仲裁 ， 将 ARTRY# 
( Abort and Вену) 以 及 SHI# ( Shared Indicator ) 
这 两 个 信号 放置 在 总 线 上 ， 也 将 缓存 行 地 址 放 到 总 
线 的 地 址 信号 上 : 前 者 表示 “针对 该 地 址 的 读 请 求 
请 先 放弃 然后 重 试 ”， 后 者 表示 “我 缓存 里 有 你 所 
请 求 的 数据 副本 ”。 总 线 上 所 有 节点 都 收 到 这 个 信 
号 ， 所 有 核心 都 向 后 空 等 待 一 个 总 线 周 期 ， 同 时 发 
起 读 请 求 的 核心 撤回 总 线 读 信号 ， 然 后 该 核心 再 次 
抢 到 仲裁 ， 将 最 新 的 数据 副本 广播 到 总 线 上 ， 请 求 
方 噢 探 接 收 。 可 以 看 到 ， 整 个 流程 中 接收 方 用 特殊 
的 控制 信号 通知 其 他 核心 “我 知道 了 ， 你 先 等 等 ， 
数据 马上 就 到 ”。 


话说 ， 原 来 MC 要 做 这 么 多 事情 呢 ? 本 以 为 MC 无 
非 就 是 接受 访 存 请 求 ， 读 写 RAM 而 已 。MC 原 本 的 确 
不 复杂 ， 但 是 一 挫 和 上 CC 就 不 一 样 了 ， 所 以 ， 咱 得 
给 MC 也 配备 一 个 ccAgent。 但 是 MC 比 较 特 殊 ， 因 为 
RAM 是 所 有 数据 的 大 本 营 和 发 源 地 ， 缓 存 是 前 方 临 时 
根据 地 ， 所 以 咱 把 处 理 MC 一 侧 CC 事 务 的 模块 称 为 源 
代理 (home agent， 简 称 HA) (参见 图 6-47) ，MC 
就 是 本 地 。 相 应 地 ， 我 们 将 核心 缓存 处 的 ccAgent 改 
名 称 为 缓存 代理 〈cache agent, (MERCA) 。 

至 此 我 们 总 结 一 下 ， 至 少 有 如 图 6-138 所 示 的 这 
几 种 请 求 和 返回 类 型 。 

Ts 时 刻 。 再 回来 看 一 下 CPU' 收 到 这 些 消息 之 后 
的 动作 。CPU, 的 Cache Agent 也 需要 默默 地 期 待 所 有 
核心 给 出 应 答 消息 ， 并 数 着 是 不 是 所 有 的 核心 都 返回 
了 应 答 ， 返 回 了 什么 应 答 。 如 果 其 他 核心 返回 的 都 是 
RdRspNdC， 那 么 它 下 一 步 要 期 望 Home Agent 返 回 一 
个 RdRspDH 携 带 数 据 的 应 答 消息 。 当 收 到 RdRspDH 
类 型 的 消息 之 后 ，CPU 就 会 知道 这 样 一 个 事实 : 其 他 
核心 中 并 无 该 数据 。 这 就 证 明 目 前 只 有 它 自 己 这 独 一 
份 了 ? 没 错 ， 本 地 的 Cache Agent 会 将 这 行 缓存 设置 为 
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名 称 

Read Probe 
Read_Response_Data_ Ноте 
Read_Response_No_Data_Cache 


Read_Response_Data_Cache 


简称 

RdPrb 
RdRspDH 
RdRspNdC 


RdRspDC 


核心 发 出 访 存 请 求 到 总 线 尝试 读 取 对 应 缓存 行 
MC 针对 读 请 求 的 应 答 ( 携带 有 数据 ) 

其 他 核心 针对 读 请 求 的 应 答 ( 未 命中 无 数据 ) 
其 他 核心 针对 读 请 求 的 应 答 ( 命中 ， 携 带 数据 ) 


图 6-138 目前 推导 出 来 的 所 需要 的 各 种 消息 类 型 一 览 


Exclusive (E) 状态 。 但 是 如 果 收 到 的 是 RdRspDC， 
则 证 明 某 个 核心 拥有 该 数据 的 最 新 副本 ， 并 且 传 给 
了 CPU,， 那 么 本 地 的 Cache Agent 会 将 这 行 缓存 设置 
为 Shared 状 态 。 同 时 ， 提 供 数据 的 那个 核心 〈 假 设 为 
СРО») 的 Cache Agent 也 知道 了 这 样 一 个 事实 : 现在 
我 把 我 这 里 的 数据 分 享 给 另外 一 个 核心 了 ， 我 这 里 的 


这 行 缓存 也 得 变 成 Shared (5) 状态 。 


T4 时 刻 。CPU: 和 CPU 上 的 程序 各 自 访问 缓存 行 
A， 假 设 在 一 段 时 间 内 ， 程 序 只 是 读 取 该 行内 的 数 
据 ， 此 时 这 两 个 核心 都 会 命中 在 其 各 自 的 私有 缓存 ， 
并 且 缓 存 行 状态 无 变化 ， 都 还 是 S 状 态 ， 也 不 会 向 核 
外 总 线 上 发 出 任何 请 求 ， 因 为 缓存 命中 了 。 这 就 达到 
了 过 滤 CC 广 播 的 效果 ， 并 不 是 所 有 访 存 请 求 都 得 发 


送 广播 。 


Ts 时 刻 。CPU3 也 发 起 了 针对 缓存 行 A 的 访问 请 
求 ， 未 命中 缓存 后 将 请 求 发 到 了 总 线 上 。 此 时 ，CPU' 
和 CPU 会 分 别 应 答 给 CPU; 一 条 RdRspDC 带 数据 的 消 
息 ，CPU; 只 会 接收 第 一 个 到 达 的 那 份 数据 ， 后 面 到 达 


的 会 被 丢弃 ， 因 为 很 显然 ， 多 个 人 同时 回 


复 了 数据 ， 


证 明 这 份 数据 有 多 个 人 持 有 ， 而 且 CPU3 上 的 Cache 
Agent 也 会 将 这 行 缓存 置 为 S 态 。 有 没有 一 种 机 制 可 以 
在 有 多 个 副本 时 只 让 其 中 一 个 核心 返回 数据 即 可 ? 的 
确 可 以 做 到 ， 这 样 还 可 以 节省 总 线 流 量 。 比 如 在 T3 时 
刻 ， 当 CPU 2 把 数据 传送 给 CPU 1 后 ，CPU 1 可 以 将 自 
己 的 该 行 缓存 设置 为 Forward (F) 状态 ， 其 表示 : 后 
续 谁 再 要 这 份 数据 ， 我 负责 转发 ， 其 他 持 有 该 数据 并 
处 于 S 状 态 的 核心 不 需要 转发 。 并 规定 : 数据 被 传 给 
了 哪个 核心 ， 哪 个 核心 就 接力 变 为 F 态 ， 之 前 处 于 F 态 
的 核心 将 数据 传 给 他 人 后 ， 自 己 变 为 S 态 。 这 就 进 一 


步 降 低 了 不 必要 的 CC 流量 。 


总 结 一 下 ， 截 至 目前 ， 缓 存 行 A 在 各 个 CPU 缓存 


内 的 状态 如 图 6-139 所 示 。 


CPU1 缓存 行 A Shared 
CPU2 缓存 行 A Shared 
CPU3 缓存 行 A Forward 


CPU4 


图 6-139 ”缓存 行 A 当前 状态 


Te 时 刻 。CPU3 上 的 程序 打算 更 新 缓存 行 A 中 的 某 
数据 ， 发 出 了 Stor 指 令 ， 将 新 数据 存 入 了 Stor Buffer/ 
Queue， 这 个 动作 被 电路 通知 给 了 CPU3 的 Cache 
Agent， 后 者 立即 在 其 TSHR 寄 存 器 组 中 生成 一 条 任 
务 ， 要 把 这 份 新 数据 广播 出 去 ， 因 为 本 例 中 咱们 采 
用 的 是 Write Invalidate 方 式 ， 所 以 其 广播 的 是 作废 
消息 而 不 是 新 数据 。 首 先 Cache Agent 在 其 TSHR 对 
应 中 断 中 填 入 缓存 行 A 的 Tag， 以 及 状态 “Invalidate 
Pending”， 这 个 状态 字段 的 信号 被 输送 给 了 下 游 专 
门 用 于 生成 对 应 消息 的 电路 。 该 电路 只 要 一 收 到 这 
个 信号 ， 就 会 向 总 线 发 送 Write Invalidate 消 息 ， 其 中 
携带 缓存 行 A 的 Tag， 当 然 ， 总 线 的 “消息 类 型 ” 信 
号 也 要 被 设置 为 WrtIvld (Write Invalidate) 。 发 送 完 
毕 之 后 ， 该 电路 将 TSHR 中 该 条 目的 状态 变 为 “Wait 
Response”， 进 入 等 待 其 他 核心 应 答 的 状态 。 

Tj 时 刻 。CPU1ys 上 的 Cache Agent 嗅 探 到 这 个 
WrtIndt 消 息 ， 从 中 提取 了 缓存 Tag， 并 拿 着 这 个 Tag 
去 查询 自己 的 L1、L2 私 有 缓存 。CPU, 和 CPU, 都 命中 
了 ， 所 以 都 被 各 自 的 Cache Agent 给 置 为 了 Invalid (1) 
RA: 同时， 各 自 向 总 线 回 送 一 条 IvldRspF (Invalid_ 
Response_Finished) 消息 ， 表 明 已 成 功 作废 对 应 的 组 
存 行 。CPU4 的 缓存 一 直 都 是 空 的 ， 未 命中 ， 所 以 其 
Cache Agent 会 返回 一 条 IvldRspN (Invalid Response_ 
Negative) 表明 自己 没有 该 缓存 行 ， 没 啥 好 作废 的 。 
这 3 条 应 答 消息 可 能 同时 产生 ， 但 是 由 于 共享 总 线 的 
原因 ， 它 们 只 能 仲裁 之 后 被 先后 发 出 来 。 每 个 应 答 消 
息 中 都 必须 包含 各 自 的 网 络 ID， 以 便 让 接收 方 区 分 是 
谁 发 出 的 。 自 此 CPU 和 CPU ,上 的 缓存 空 了 。 

Ts 时 刻 。CPU3 先 后 收 到 了 其 他 3 个 核心 的 应 答 ， 
其 Cache Agent 每 收 到 某 个 核心 的 应 答 ， 就 在 TSHR 寄 
存 器 中 对 应 的 追踪 条 目 中 的 bitmap 一 串 位 ， 每 一 位 
描述 一 个 状态 ， 共 有 3 个 其 他 核心 ， 所 以 共 3 位 组 成 该 
bitmap) 将 对 应 的 位 置 为 1， 表 示 该 核心 已 应 答 。 当 3 
个 位 全 被 置 为 1 之 后 ， 会 触发 电路 将 该 条 目的 状态 变 
为 Invalidating Finished， 这 个 状态 信号 继而 触发 Cache 
Agent 中 其 他 电路 ， 将 本 地 私有 缓存 中 的 缓存 行 A 的 状 
态 变 为 Modified (M) ， 并 从 TSHR 中 删 掉 该 条 追踪 
记录 。 


提示 > 


如 果 为 了 完成 某 个 任务 ， 需 要 执行 多 个 不 同 的 
动作 ， 那 么 在 做 完 第 一 步 之 后 ， 硬 件 如 何 知道 下 一 
步 应 该 做 什么 事情 ? 我 们 只 给 了 硬件 一 条 指令 ， 
比如 上 述 的 WrtIvld 指 令 ， 而 硬件 需要 先后 做 : 向 
下 游 电 路 输出 Invalidate Pending 状 态 ， 然 后 转变 为 
Wait Response 状 态 ， 在 接收 到 所 有 应 答 之 后 ， 再 转 
变 为 Invalidating Finished。 硬 件 是 如 何 知道 执行 该 
WrtIvld 指 令 需要 按照 顺序 执行 上 述 这 3 步 呢 ? 如 图 
6-140 所 示 ， 设 置 一 个 译 码 器 ， 给 其 输入 一 个 初始 
状态 ， 其 会 自动 译 出 下 一 个 状态 ， 将 下 一 个 状态 反 
馈 回去 ， 再 加 上 上 一 步 的 一 些 结果 状态 一 同 作为 给 
入 ， 它 会 自动 译 出 下 下 个 状态 ， 周 而 复 始 ， 一 直到 
结束 时 ， 其 会 译 出 最 后 一 个 状态 ， 导 致 下 游 电 路 将 
TSHR 中 整个 条 目 删 掉 。 我 们 将 本 例 中 的 WrtInld 这 
种 上 层 指 令 称 之 为 宏 指 令 (macro instruction ) ; 
而 执行 该 宏 指 令 时 的 一 些 子 步 又 ， 我 们 称 之 为 徽 
指令 ( micro instruction) 。 我 们 可 以 认为 这 些 子 状 
态 被 写 死 在 了 译 码 器 的 逻辑 电路 中 ， 也 就 是 所 谓 
的 微 码 。 我 们 把 图 中 所 示 的 这 种 能 够 把 宏 指 令 自 
动 翻译 出 其 第 一 个 状态 ， 然 后 得 出 第 二 个 、 第 三 
个 一 直到 最 后 一 个 状态 的 逻辑 电路 模块 ， 称 为 得 序 
列 器 (micro sequencer) 。 微 序列 器 属于 一 种 硬 状 
态 机 ， 状 态 机 本 质 上 就 是 一 种 译 码 器 ， 根 据 输 入 信 
号 算出 输出 信号 。 除 了 上 述 做 法 之 外 ， 还 可 以 将 这 
些 状态 的 控制 字 直 接 存 储 到 ROM 的 每 一 行 中 (这 
是 名 副 其 实 的 徽 码 ， 而 有 全 有 些 产 品 甚至 可 以 更 新 微 
码 ) ， 然 后 利用 计数 器 和 译 码 器 ， 根 据 接收 到 的 不 
同 宏 指 令 ， 设置 计数 器 的 初 值 ， 再 从 ROM 中 一 次 
一 次 地 选 出 对 应 的 状态 控制 字 输 出 到 下 游 寄存 器 ， 
这 也 是 一 种 微 序列 器 的 设计 方法 。 宏 指令 和 微 指令 
的 故事 其 实在 第 2 章 中 已 经 涉猎 过 ， 读 到 这 里 不 妨 
翻 回去 回顾 一 下 ，CPU 指 令 集中 的 多 周期 指令 、 宏 
指令 ， 也 是 靠 某 种 设计 实现 的 微 序列 器 来 控制 执行 
的 。 一 般 来 讲 ， 复 杂 的 CPU 内 部 微 码 都 是 采用 上 述 
第 二 种 实现 思路 ， 因 为 存储 到 ROM 中 的 微 码 可 被 更 
新 以 优化 性 能 或 者 屏蔽 硬件 Bug。 


Micro Sequencer 


图 6-140 РЕЯ 


M 态 表示 该 行 已 经 被 自己 更 改 了 ， 而 且 已 经 作废 了 
其 他 核心 中 的 数据 。 其 与 E 态 的 不 同 之 处 在 于 ，E 态 的 缓 
存 行 的 内 容 与 SDRAM 中 存储 的 是 一 致 的 ， 未 经 更 改 。 
M 态 也 是 独 一 份 ， 其 必然 包含 了 E 态 ， 但 是 E 态 并 不 能 
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表示 和 包含 M 态 。Home Agent 接 收 到 WitIvid 消 息 后 无 动 
作 ， 上 毕竟 这 是 大 本 营 嘛 ， 无 所 谓 作废 与 否 。 如 果 CPU3 
上 的 程序 执行 了 WBIVLD 等 将 脏 数 据 显 式 写 回 RAM 
的 CPU 指令 ， 或 者 CPU; 上 的 该 缓存 行 需要 被 其 他 行 挤 
占 ， 那 么 缓存 控制 器 也 会 将 其 写 回 RAM， 此 时 该 核心 
要 发 出 一 条 WrtBck (Write Back， 写 回 数据 ) 消息 。 该 
消息 只 会 被 MC 响应 ，MC 接 收 数 据 然后 写 入 RAM。 

Ts 时 刻 。CPU4 上 的 程序 终于 按 捧 不 住 了 ， 直 接 
放 了 个 大 招 儿 ， 把 所 有 核心 和 弄 了 个 超 超 。 其 程序 在 
没有 读 入 任何 数据 的 前 提 下 ， 直 接 发 出 Stor 指 令 向 组 
存 行 A 中 某 处 写 入 数据 ， 这 份 数据 会 被 保存 到 CPU4 
的 Stor Buffer/Queue 中 暂 存 。 鬼 知道 这 个 程序 在 干 什 
么 ， 但 是 没有 规定 说 程序 必须 先 读 入 再 改写 的 。 假 设 
该 CPU 使 用 了 Write Allocate + Write Back 设 计 。 这 个 
Stor 指 令 会 未 命中 缓存 ， 则 CPU4 的 Cache Agent 立 即 
在 TSHR 中 创建 一 条 追踪 条 目 ， 并 将 其 状态 置 为 Write 
Allocate Pending， 这 个 状态 将 触发 下 游 电路 向 核 外 总 
线 发 起 RdPrb 请 求 试图 读 回 该 行 (Write Allocate 的 行 
为 就 是 如 此 ， 详 见 6.2.14 节 ) 。 很 显然 ，CPU; 需 要 应 
答 这 个 请 求 ， 将 最 新 数据 传 回 。 那 么 CPU3; 是 不 是 应 
答 以 RdRspDC 带 数据 的 消息 并 将 自己 的 缓存 行 A 变 为 
Shared 态 呢 ? 有 问题 ，S 表 示 多 个 人 持 有 与 RAM 中 数 
据 一 致 的 多 个 副本 ， 而 CPU; 的 缓存 行 A 数据 尚未 被 写 
入 RAM， 所 以 ， 需 要 增加 一 个 新 的 消息 类 型 ， 我 们 称 
之 为 RdRspWbDC (Read Response Writeback Data_ 
Cache) ， 其 作用 是 返回 最 新 的 、 已 更 改 的 数据 给 请 
求 方 ， 但 是 同时 也 要 求 总 线 上 的 MC 将 这 份 数据 一 同 
拿 到 并 写 入 到 RAM 中 。 这 样 CPU; 就 可 以 安心 地 将 自 
己 的 这 行 缓存 状态 改 为 S 态 了 。 

CPU4 的 Cache Agent 收 到 数据 之 后 ， 将 其 写 入 
缓存 ， 并 同时 将 TSHR 中 的 追踪 条 目 状 态 改 为 Write 
Allocate Finished， 该 状态 触发 电路 将 刚 得 到 的 缓存 行 
A 的 状态 改 为 F 态 。 然 后 ， 别 忘 了 ， 该 行 被 读 入 只 是 为 
了 让 Stor 指 令 将 数据 更 新 进来 ， 更 新 数据 需要 发 送 作 
废 通知 。 所 以 ，TSHR 中 的 追踪 条 目 还 没有 被 删除 ， 
其 状态 为 Write Allocate Finished， 该 状态 并 不 是 最 终 
状态 ， 其 同时 会 触发 电路 发 送 一 个 WrtIvld 作 废 通知 
给 所 有 其 他 核心 。 好 么 ， 这 纯 属 过 河 拆 桥 啊 ! 刚 从 别 
人 那 拿 到 数据 ， 就 要 去 作废 人 家 。 此 后 的 步骤 与 上 文 
中 相同 ， 最 终 TSHR 追 踪 条 目 状 态 变 为 Write Invalidate 
Finished， 这 个 状态 将 触发 电路 将 缓存 行 A 改 变 为 M 
态 ， 并 删除 这 个 追踪 条 目 〈 当 然 ， 是 在 下 一 个 时 钟 周 
期 来 删除 ) 。 

思考 一 下 ， 在 上 述 步骤 中 ，CPU4 发 起 了 两 轮 CC 
操作 ， 先 读 入 ， 再 立即 作废 ， 能 否 将 其 合并 为 一 步 ? 
缓存 行 A 是 因为 要 被 更 改 ， 但 是 缓存 不 命中 ， 才 不 得 
不 先 读 入 的 。 如 果 能 够 这 样 一 次 性 通知 其 他 核心 会 
更 好 : “把 你 的 缓存 行 A〈 如 有 ) 传送 给 我 ， 然 后 顺 
便 自 废 。” 瞧 瞧 这 口气 ， 牛 啊 。 这 个 消息 我 们 称 之 为 
RdIvldPrb (Read Invalidating Probe) „ ЖЕ, CPU, 


到 大 话 计算 机 一 一 计算 机 系统 底层 架构 原理 极限 剖析 


只 要 发 起 一 轮 CC 操 作 ， 即 可 在 拿 到 数据 的 同时 作废 
其 他 核心 中 的 该 行 数据 。CPU, 拿 到 数据 之 后 ， 缓 存 行 
A 将 直接 变 为 M 态 ， 因 为 Stor 的 数据 早已 在 Stor Buffer 
里 了 ， 算 是 完成 存储 了 。 

总 结 一 下 。 截 至 目前 ， 我 们 推导 出 的 所 需 的 消息 
类 型 、 缓 存 行 状态 以 及 当前 的 各 核心 状态 如 图 6-141 
所 示 。 

我 们 将 上 述 这 种 缓存 一 致 性 的 状态 机 称 为 MESIF 
状态 机 ， 这 5 个 字母 分 别 表 示 了 缓存 行 可 能 的 5 个 状 
态 ， 缓 存 行 元 数据 中 需要 至 少 3 位 的 字段 来 表示 这 5 种 
状态 。 图 6-142 为 这 5 个 状态 之 间 的 迁移 条 件 和 对 应 的 
动作 ， 以 及 对 应 的 总 线 消息 类 型 一 览 。 


消息 类 型 简称 


提示 * 


snoop ( 嗅 探 ) 和 probe (RH) 这 两 个 词 是 有 
区 别 的 。probe 是 指 核心 发 出 请 求 询问 或 者 通知 其 
他 核心 /MC 的 过 程 ， 比 如 RdPrb、WrtIvld 等 消息 都 
是 probe。snoop 则 是 指 其 他 核心 接收 这 些 probe 消 息 
并 处 理 的 过 程 ; 而 又 特 指 在 共享 总 线 方式 下 ， 所 有 
核心 时 刻 都 在 监听 总 线 消 息 的 过 程 ， 这 就 是 所 谓 噢 
的 含义 。 但 是 ， 后 来 人 们 并 没有 特别 地 严格 区 分 
这 两 者 ， 有 些 体系 结构 中 把 所 有 的 CC 消息 统称 为 
snoop， 但 是 自己 一 定 要 清楚 。 后 文中 冬瓜 哥 某 些 
时 候 也 会 沿用 这 个 习俗 。 


= | х= |an ах 
Read_Probe RdPrb BORADA RI OSRE AAR amiy Invalid т 被 作废 或 者 原本 就 是 空 行 
Read_Response_Data_Home RdRspDH 。。 MC 针 对 读 请 求 的 应 答 ( 携带 有 数据 ) Exclusive Е — 从 RAM 得 到 的 缓存 行 
Read_Response_No_Data_Cache RdRspNdC ”其 他 核心 针对 读 议 求 的 应 答 ( 未 命中 无 数据 ) Shared $ 多 个 核心 持 有 同一 个 缓存 行 
Read Response Data Cache RdRspDC ”其 他 核心 针对 读 清 求 的 应 答 ( 命中 ， 携 带 数据 ) Forward Р пиле јон 
Read Веѕропѕе Writeback Data Cache RdRspWbDC 。” 从 本 核心 缓存 中 返回 数据 给 请 求 方 顺带 要 求 MC 写 回 RAM ( M->S 时 ) Modified М 刚刚 更 改 并 通知 他 人 作废 的 缓存 行 
Write Invalidating Мама — 核心 更 新 绥 存 行 之 后 发 出 的 作 记 通 知 消息 | жо | ses [ж | 
Invalidating Response Finished JvldRspF 。 核心 收 到 作废 通知 之 后 应 答 说 作废 成 功 СР 1 
Invalidating Response Negative MdRspN OSEERE RNET cpu2 1 
Read Invalidating Probe камары — 核心 更 新 缓存 行 但 未 命中 缓存 时 发 出 CPU3 1 
Write Back WrtBck 当 核 心 主动 将 胜 数 据 写 入 RAM 时 ( 当 从 M->E 变 化 时 ) CPU4 НЕБА М 
Request for Write Back WrtBckRqst 。 MLC 主 动 要 求 核心 将 脏 数据 写 回 主 存 


图 6-141 


目前 为 止 推导 出 的 所 需 的 消息 类 型 、 缓 存 行 状态 以 及 当前 的 各 核心 状态 


缓存 行 状态 


被 自己 怎样 访问 | 发 出 什么 总 线 操作 ( 假设 缓存 体系 结构 为 Write Allocate + Write Back 模 式 ) 
Ве, ВИР 
Эй, ЖЕМ , ERF 
, BESSA , 2t#WrtBck;5 eh ， 然 后 自己 恋 为 E 态 
独占 , PERINNE , РАМЕ 

Mi, БЕЖЕН, ето а СЛЕМ 


HAKS, нуж, TME 
АННМИАМЕЧЕВАЮИ , 然后 自己 变 为 M 坊 


不 命中 ， 发 出 RdPrb 消 息 ， 然 后 根据 应 答 消息 判定 ， 自 己 可 能 变 为 F/E 态 之 一 
发 出 RdIvidPrb 读 顺带 作废 消息 ， 然 后 自己 变 为 M 坊 
共同 持 有 ， 当 无 妨 蛋 的 读 ,无 操作 


я 


= 发 出 WrtIvid 作 废 通知 ， 然 后 自己 变 为 M 态 
ETRS | 被 别人 怎样 访问 发 出 什么 总 线 操作 ( 假 没 绥 存 体系 结构 为 Write Allocate + Write Back 模 式 ) 
m” 读 会 收 到 RdPrb 消 息 ， 然 后 发 出 RdRspWbDC 共 数据 宵 藻 写 回 消息 ， 然 后 将 自己 改 为 5 志 
写 会 收 到 RdIvldPrb 消 息 ， 变 为 [ 态 ， 返 回 RdRspDC 带 数据 消息 ,无须 写 回 RAM ， 因 为 对 方 立 即 会 变 为 M， 没 必要 
会 收 到 RdPrb 消 息 ,然后 发 出 RdRspDC 党 数据 消息 ， 然 后 尝 自 己 改 为 5 志 


会 收 到 RdIvldPrb 消 息 ， 变 为 [ 态 ， 返 回 IvidRspF 


会 收 到 RdPrb 消 息 ， 向 总 线 返 回 RdRspNdC ,因为 $ 态 不 能 转发 ， 期 待 处 于 F 态 的 那个 核心 转发 数据 


会 收 到 RdPrb 消 息 ， 向 总 线 返 回 RdRspNdC 
可 能 会 收 到 Wrtlvld ( 对 方 命中 ) 或 者 RdIvldPrb ( 对 方 未 命中 ) , 返回 IvldRspN 


ШИЙ 


可 能 会 收 到 Wrtivld ( 对 方 命中 ) 或 者 RdIvldprb ( 对 方 未 命中 ) ， 变 为 I 坊 ， 返 回 IvldRspF， 期 待 F 坊 节点 转发 数据 


会 收 到 RdPrb 消 息 ， 然 后 发 出 RdRspDC 带 数据 消息 ， 然 后 将 自己 改 为 5 志 


图 6-142 ”MESIF 状 态 机 迁移 条 件 和 动作 一 览 表 


可 能 会 收 到 Wrtlvld ( 对 方 命中 ) 或 者 RdivldPrb ( 对 方 未 命中 ) ， 然 后 发 出 RdRspDC 带 数据 消息 ， 自 己 变 为 赤 


БАЁ, ЛЕН, (АЗИЈА, 
有 了 这 套 状态 机 ， 每 个 核心 都 可 以 感知 到 自己 以 及 他 
人 的 状态 。 虽 然 无 法 做 到 全 面 量化 感知 〈 比 如 Shared 
状态 ， 并 不 知道 到 底 有 几 个 核心 、 各 是 谁 持 有 该 
行 ) ， 但 是 每 个 核心 依然 可 以 根据 自身 缓存 行 的 状态 
来 决定 自己 的 动作 ， 在 保证 了 一 致 性 的 同时 ， 还 能 避 
免 不 必要 的 总 线 流量 。 

我 们 用 另外 一 种 图 示 来 展示 上 述 的 整个 变迁 过 
程 ， 如 图 6-143 所 示 。 观 此 图 时 ， 脑 海中 可 以 构建 一 
副 场景 : 这 些 CC 消 息 在 访 存 网 络 上 错综复杂 地 高 速 
流动 着 ， 每 个 核心 的 状态 不 停 闪烁 变化 着 ， 但 是 闪烁 
的 速度 低 于 消息 流动 速度 ;核心 之 上 ， 程 序 的 代码 一 
条 条 地 被 载 入 ， 程 序 执行 的 速度 又 慢 于 核心 状态 变化 
的 速度 。 这 就 犹如 现实 世界 的 场景 ， 最 底层 的 基本 构 
建 单元 不 停 地 振荡 ， 多 个 单元 通过 某 种 关系 耦合 起 来 
形成 基本 粒子 ， 再 加 上 反馈 ， 让 这 些 单元 感知 到 时 间 
的 存在 ， 基 本 粒子 再 耦合 成 更 高 级 的 机 构 。 底 层 的 基 
本 单元 振荡 速度 为 世界 最 高 速度 ， 越 往 上 层 速度 逐渐 
降低 。 上 层 的 一 个 小 变化 ， 对 应 着 底层 的 大 量变 化 的 
堆积 车 加 和 反馈 。 

另外 可 以 看 到 ， 从 S 到 E 是 没有 变更 路 径 的 ， 这 是 
因为 CPU 核心 无 法 感知 到 自己 是 否 应 该 从 S 变 更 到 E。 
比如 ， 某 时 刻 多 个 CPU 持 有 处 于 S 态 的 缓存 行 ， 然 后 其 
他 CPU 陆续 将 该 行 从 缓存 中 换 出 ， 只 剩 下 一 个 CPU 拥 
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有 该 行 ， 那 么 该 CPU 对 应 的 该 行 状态 依然 是 S。 虽 然 从 
旁观 者 视角 而 言 它 现在 就 是 E 态 了 ， 但 是 由 于 CPU 在 换 
出 S 态 缓存 行 时 为 了 节省 流量 并 不 广播 消息 通告 ， 所 以 
该 CPU 的 该 缓存 行 因为 无 法 感知 到 这 一 点 ， 仍 为 S 态 。 


如 果 核 心 把 缓存 别 除 /淘汰 的 动作 也 使 用 消息 
广播 出 去 ， 那 么 就 可 以 实现 从 S 态 到 E 态 的 状态 转换 
了 。 但 是 ， 这 种 实现 代价 太 高 。 因 为 每 个 CA 均 需 
要 一 个 bitmap 来 追踪 到 底 哪个 核心 把 这 一 行 换 出 了 
(把 相应 位 置 为 0 ) ， 以 及 哪个 核心 又 读 入 这 一 行 
了 (把 相应 位 置 为 1 ) 。 如 果 系 统 内 有 4 个 核心 ， 则 
需要 3 位 来 表示 ， 当 3 位 都 置 为 1 后 ， 便 可 以 过 渡 到 E 
态 了 。E 态 的 好 处 是 自己 要 改 的 话 直接 更 改 ， 不 需 
要 发 送 WrtIvld 消 息 ， 但 是 为 了 节省 这 一 次 消息 , 平 
时 却 要 做 更 多 工作 ， 得 不 偿 失 。 


Intel 的 主流 商用 CPU 使 用 的 就 是 MESIF 缓 存 一 致 
性 协议 。 


假设 缓存 行 容 量 为 64 字 节 ， 两 个 核心 持 有 S 态 


ИННА, AlE TAMRA, CA 
将 核心 2 的 该 行 整 行 作废 ， 即 便 核心 2 上 的 程序 只 访 
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图 6-143 经典 的 MESIF 状 态 机 
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问 该 行 的 后 8 字 节 ， 也 会 被 作废 ， 因 为 核心 1 并 不 知 
道 也 无 法 控制 其 他 核心 到 底 访 问 该 行 的 哪个 部 分 。 
如 果 按 照 字 节 级 精度 管理 ， 硬 件 开销 太 大 。 正 因 如 
此 ，6.2.19 节 介绍 的 伪 共 享 会 严重 影响 性 能 。 


现在 你 再 去 理解 一 下 ， 硬 件 原生 保证 的 时 序 具 
体 是 如 何 实现 的 。 比 如 ， 我 们 前 文中 提 到 过 的 多 数 
的 商用 CPU 都 可 以 原生 保证 任何 一 个 核心 的 Stor 指 令 
的 结果 会 被 其 他 核心 顺序 地 看 到 ， 即 在 Stor Buffer 这 
个 位 置 确保 不 会 乱 序 执行 ， 然 后 利用 TSHR 寄 存 器 来 
追踪 每 一 笔 由 于 Stor 操 作 而 引发 的 底层 CC 消息 的 发 
送 和 应 答 接 收 状态 。 每 个 Stor 指 令 都 会 发 出 WrtIvld 消 
息 〈 对 M 态 和 E 态 的 缓存 行 除外 ) ，TSHR 需 要 收集 
到 全 部 核心 的 IvldRspFAN 应 答 消息 ， 该 Stor 指 令 的 结 
果 才 算是 “被 其 他 核心 看 到 ”。 如 果 采 用 的 是 Write 
Sync 方式 ， 则 数据 同步 到 对 方 核心 ， 对 方 核心 返回 
对 应 消息 表示 “我 已 收 到 并 成 功 覆盖 ” (WrtRspF) 
或 者 “我 已 收 到 但 是 我 这 没 缓 存 过 该 行 所 以 忽略 ” 
(WrtRspN) 。CA 也 需要 收集 全 部 核心 的 返回 确认 
消息 ， 从 而 判断 该 Stor 指 令 是 否 执行 完成 。 如 果 Stor 
Buffer 中 有 多 条 Stor 指 令 ， 第 一 条 Stor 指 令 被 CA 发 出 
WrtIvld 消 息 之 后 ， 可 以 不 用 等 其 他 核心 返回 消息 而 紧 
接着 发 送 第 二 条 Stor 指 令 对 应 的 WrtIvld 消 息 〈 前 提 是 
CA 又 抢 到 了 仲裁 ) ， 然 后 ， 针 对 这 两 条 WrtIvld 消 息 
的 回应 可 能 会 穿插 乱 序 到 达 ， 但 是 这 并 不 影响 其 他 核 
心 感知 到 这 两 条 Stor 结 果 的 顺序 ， 因 为 其 他 核心 接连 
收 到 两 条 WrtIvld 消 息 ， 会 将 其 压 入 FIFO 队 列 中 顺序 处 
理 ， 只 要 其 他 核心 处 理 Invalidat 请 求 时 不 乱 序 即 可 。 
下 文中 会 介绍 Invalidat Queue。 


M 态 与 脏 态 的 区 别 和 联系 > 


前 文中 提 到 过 每 个 缓存 行 有 一 位 来 表示 其 是 否 
是 脏 的 ， 即 是 否 被 改写 过 。 其 实 “ 是 否 被 改写 过 ” 
这 个 说 法 并 不 准确 ， 应 该 是 “该 级 缓存 内 的 该 组 
存 行 相对 于 其 下 级 缓存 内 的 对 应 缓存 行 是 否 不 一 
致 ”。 如 果 L1 缓 存 从 下 级 缓存 读 入 某 M 状 态 的 缓存 
行 ， 那么 该 缓存 行 在 被 读 入 之 后 在 Ll 里 面 是 Clean 
状态 而 不 是 Dirty 状 态 ， 但 是 其 的 确 为 M 状 态 ， 意 味 
着 该 缓存 行 相对 于 RAM 主 存 一 定 是 不 一 致 的 ， 那 
么 也 就 意味 着 位 于 RAM 主 存 之 上 的 那 层 缓存 也 就 
是 LLC 里 ， 该 行 一 定 是 Dirty 状 态 ， 但 是 L2 缓 存 中 
对 应 的 该 行 不 见得 就 是 Dirty 状 态 ， 可 能 是 Clean 状 
态 。 上 级 缓存 的 Dirty 行 被 写 回 到 下 级 缓存 后 ， 上 级 
缓存 中 该 行 便 是 Clean 状 态 了 ， 直 到 它 被 LLC 写 入 
RAM 后 ， 其 M 态 才 会 被 改变 为 其 他 态 ， 比 如 可 以 
是 E 态 、S 态 。 同 理 可 推 得 ， 如 果 某 缓存 行 是 E 态 或 
者 S 态 ， 那 么 证 明 其 内 容 与 RAM 一 致 ， 则 其 一 定 也 
是 Clean 状 态 的 。 在 Inclusive 模 式 的 缓存 中 ， 如 果 缓 
存 全 满 ， 有 新 的 访 存 请 求 未 命中 L1 和 L2， 那 么 LLC 
就 需要 读 入 该 缓存 行 ， 同 时 淘汰 一 条 现存 缓存 行 ， 


此 时 LLC 不 能 根据 自己 保存 的 状态 位 来 判断 该 行 
是 Clean 还 是 Dirty， 还 必须 向 所 有 上 级 缓存 发 出 探 
询 。 如 果 该 行 都 是 Clean 的 ， 才 可 以 直接 丢弃 从 而 读 
入 新 请 求 的 缓存 行 ， 如 果 至 少 有 一 个 层 缓存 中 该 行 
是 Dirty 的 ， 那 么 就 需要 上 级 缓存 将 该 行 写 回 下 级 ， 
下 级 再 写 回 ， 一 直到 写 回 RAM 主 存 ， 然 后 将 其 设置 
为 I 态 ， 从 而 可 以 被 新 读 入 缓存 行 占用 。 


6.9.3 MOESI 状 态 机 


思考 一 个 现象 ， 从 M 态 到 S 态 的 迁移 ， 会 伴随 着 
一 个 脏 数据 写 回 动作 ， 只 因为 S 态 的 定义 是 数据 没有 
脏 。 但 是 ， 很 显然 ， 如 果 我 改 了 一 个 数据 ， 你 问 我 
要 ， 我 把 我 改 的 发 给 你 ， 那 么 咱们 俩 就 都 持 有 改过 的 
数据 ， 我 们 俩 后 续 对 其 进行 的 读 操作 时 是 不 会 有 一 致 
性 问题 的 ， 如 果 要 写 ， 再 发 作废 通知 也 不 晚 。 这 样 可 
以 节省 一 次 对 RAM 的 访问 操作 ， 省 掉 不 必要 的 总 线 流 
HARAMI AFER. 

正 因 如 此 ，AMD 的 CPU 广泛 使 用 了 改进 版 的 
缓存 一 致 性 协议 ， 称 为 MOESI。 其 中 引入 了 Owner 
(O) 这 个 缓存 行 状态 。 当 数据 只 在 一 个 核心 上 持 
有 并 且 处 于 已 更 改 状态 时 ， 此 时 状态 为 M; 当 其 他 
核心 发 起 RdPrb 消 息 请 求 读 取 该 行 时 ， 该 核心 将 发 出 
RdRspDMC (Read Response Data Modified Cache) 
带 数据 消息 以 告知 对 方 “数据 在 这 ， 是 已 经 被 我 更 改 
过 的 了 ”， 然 后 该 核心 将 自己 的 该 行 缓存 状态 变 为 
S， 收 到 数据 的 核心 将 该 行 缓存 状态 变 为 0。 注 意 ， 
MOESI 里 的 Shared 状 态 并 不 表示 其 是 干净 的 ， 也 可 
以 是 脏 的 。O 状 态 一 定 是 脏 的 ， 而 且 当 其 他 核心 要 求 
访问 该 行 时 ， 由 O 状 态 的 核心 负责 转发 数据 ， 充 当 了 
MESIF 协 议 中 F 态 核心 的 角色 。O 如 果 存 在 ， 那 证 明 其 
他 核心 上 一 定 有 S 存 在 。 

在 下 文中 还 是 以 MESIF 作 为 样本 来 介绍 。 
6.9.4 ”结合 MESIF 协 议 进 _ 步 理解 锁 和 屏障 

锁 变 量 本 质 上 也 是 个 共享 变量 ， 争 抢 它 要 靠 带 
锁 指 令 ， 将 其 值 更 改 为 某 个 数值 。 至 于 哪个 数值 表 
示 已 上 锁 ， 哪 个 数值 表示 已 开锁 ， 完 全 由 程序 决 
定 ， 后 续 完全 靠 检查 该 数值 以 判断 是 否 已 被 加 锁 。 
后 续 的 动作 中 不 需要 带 锁 指 令 ， 甚 至 解锁 都 不 需要 
用 带 锁 指令 。 一 定 要 深刻 理解 这 一 点 。 既 然 锁 也 是 
一 个 共享 变量 ， 那 么 它 就 有 可 能 被 缓存 。 多 个 核心 
在 抢 锁 时 会 访问 锁 变 量 ， 这 就 意味 着 其 会 随 着 程序 的 
执行 在 不 同 核心 的 缓存 上 不 停 来 回 游 走 ， 居 无 定 所 。 
锁 变量 并 不 表示 某 个 节点 加 锁 后 就 将 其 放 在 自己 缓存 
里 归 为 己 有 不 让 别人 访问 ， 如 果 你 还 是 潜意识 里 觉得 
如 此 ， 那 么 就 需要 跳 到 6.8 一 节 开头 再 体会 一 下 。 

图 6-144 所 示 为 两 个 线程 争 抢 锁 的 过 程 。 这 个 过 


程 被 高 级 语言 完全 封装 了 起 来 ， 从 高 级 语言 上 看 ， 其 
无 非 就 是 一 个 Lock(O) 函 数 调 用 ， 而 在 底层 机 器 指令 角 
度 去 看 就 是 如 图 6-129 所 示 的 序列 。 如 果 单 单 拿 出 其 
中 Dec_ 工 工 指令 来 看 的 话 ， 其 执行 过 程 又 可 以 被 分 解 
为 更 细 的 多 个 子 步骤 〈 如 图 6-129 左 上 角 所 示 ) 。 在 
每 个 子 步骤 执行 时 ， 又 可 能 伴随 着 触发 Cache Agent 向 
总 线 发 出 对 应 的 消息 来 实现 CC。 
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假设 初始 时 ， 核 心 2 已 经 持 有 该 锁 ， 但 是 该 锁 变 
量 工 一 开始 却 位 于 核心 1 的 缓存 中 ， 处 于 M 态 。 这 是 
最 概率 的 存在 状态 : 核心 2 抢 了 锁 之 后 就 去 临界 区 办 
事 了 ， 不 会 再 去 碰 锁 变量 ， 然 而 核心 ] 却 一 直 在 那里 
循环 地 检测 是 否 已 解锁 。 这 个 过 程 需要 将 工读 入 核 
心 1 的 缓存 ， 所 以 锁 变量 当然 会 一 直 待 在 核心 1 缓存 
里 ， 被 核心 1 不 停 地 肆虐 〈 说 ! 到 底 给 不 给 我 锁 ! 不 


核心 2 


ог 11 


ToN мш 


L 的 新 值 
<q 
_ = 到 Stor Buffer 


Dec_L L 


LSE 
_ 到 Stor Buffer 
4 ов ажене 
Стр+Јтр ве» 


а 


а А 
LONE 
-到 Stor Buffer L=0 ,证 
>= 明之 前 为 1 ， 
ари аиминке | maa 
锁 , 进入 
Cmp+jJmp 指 令 临界 区 


执行 临界 区 代码 


图 6-144 ”两 个 线程 争 抢 锁 的 底层 CC 过 程 


9 大 话 计算 机 一 一 计算 机 系统 底层 架构 原理 极限 剖析 


给 ! ) 。 可 是 核心 1 就 是 抢 不 到 锁 ， 因 为 它 不 停 地 对 
锁 变 量 进行 -1 操作 ， 越 减 越 负 ， 根 本 就 是 越 陷 越 深 。 
不 过 ， 这 正 是 我 们 需要 的 逻辑 。 

核心 ?是 持 有 该 锁 的 人 ， 其 执行 完 临界 区 代码 后 
打算 解锁 ， 即 图 中 右上 角 的 第 一 步 。 其 发 送 了 一 个 
Stori 1 LHS, ЕТУ, REM. НТИ 
为 一 个 Stor 操 作 ， 但 是 所 在 的 行 目前 正 核心 1 的 缓存 
中 处 于 M 态 而 且 被 核心 1 不 断 肆 虐 着 ， 因 此 核心 2 组 
存 不 命中 ， 所 以 发 出 RdIvldPrb 消 息 。 核 心 1 收 到 此 消 
息 ， 只 能 乖乖 地 把 这 行 缓存 交 出 来 ， 并 将 自己 的 该 行 
作废 ， 此 时 核心 1 上 的 Cmp+Jmp 由 于 已 经 得 到 了 之 前 
的 工 值 ， 不 忘 肆虐 最 后 一 遍 ， 但 依然 得 不 到 锁 ， 跳 到 
LockO 继 续 执行 Dec 工 工 指令 。 
再 来 说 拿 到 了 L 所 在 缓存 行 的 核心 >， 其 直接 将 L 的 
新 值 存储 到 该 行 中 ， 并 标记 该 行为 M。 从 现在 开始 ， 工 
和 新 值 为 1， 已 经 被 解锁 了 ， 核 心 2 不 再 碰 临 界 区 。 回 
到 刚才 的 核心 1， 其 依然 不 死心 ， 继 续 执行 Dec LLI 
令 。 但 是 不 知 为 何 ， 此 时 核心 2 又 要 抢 锁 。 核 心 2 不 是 
刚 解锁 了 么 ? 是 的 ， 但 是 人 家 又 要 抢 一 次 ， 也 无 可 厚 
非 。 但 是 核心 2 的 Dec 工 指令 刚好 与 核心 1 的 Dec 工 指令 
发 生 了 底层 硬件 级 的 冲突 ， 此 时 需要 靠 底层 仲裁 来 决 
定 先 执行 谁 。 总 之 ， 谁 快 谁 就 能 抢 到 总 线 。 这 里 假设 
核心 ] 抢 到 了 总 线 。 此 时 它 会 遇 到 缓存 不 命中 ， 于 是 ， 
发 出 RdIvldPrb 消 息 试图 得 到 该 行 并 作废 其 他 核心 的 该 
行 。 现 在 轮 到 核心 交 出 该 行 了 ， 于 是 核心 2 将 带 有 LI 最 
新 值 的 缓存 行 发 送 给 核心 1， 并 作废 自己 的 该 行 。 核 心 
1 终于 拿 到 了 L， 这 次 拿 到 的 L 值 =1。 核 心 1 顺 利 地 拿 到 
了 锁 ， 其 Cmp+Jmp 指 令 不 再 回 跳 到 Lock0 〇 执行 ， 转 为 
跳 转 到 临界 区 代码 执行 。 这 期 间 ， 核 心 2 可 能 经 历 过 多 
次 抢 锁 ， 但 是 都 未 遂 。 随 后 ， 核 心 1 执行 完了 临界 区 ， 
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解锁 ， 随 后 核心 2 抢 到 了 锁 ， 继 续 执行 。 

最 后 再 提 一 下 ， 持 有 锁 并 不 表示 把 锁 变 量 据 为 
DCA: 恰恰 相反 ， 要 让 其 他 核心 看 到 该 锁 已 被 别人 抢 
到 ， 那 就 需要 让 其 他 核心 读 入 该 锁 变量 。 互 斥 锁 ， 是 
靠 每 个 核心 上 运行 的 代码 共同 遵守 的 ， 靠 的 是 自觉 二 
字 ， 硬 件 只 提供 抢 锁 时 更 新 锁 变 量 的 带 锁 指令 的 原子 
性 ， 剩 下 的 就 不 会 管 了 ， 全 靠 各 核心 上 的 程序 代码 自 
行 检测 、 自 觉 遵守 配合 。 


Intel CPU 的 带 锁 指令 为 何 被 设计 为 隐 式 屏障 ? 
考虑 到 加 锁 一 般 用 于 临界 区 访问 ， 所 以 加 锁 之 前 等 
待 前 面 的 所 有 访 存 指令 执行 完成 ， 让 其 他 核心 看 到 
结果 ， 完 成 同步 ， 再 加 锁 ， 这 样 能 够 更 好 地 保证 时 
序 。 另 外 ， 假 设 带 锁 指令 Dec 工 要 对 工 变 量 原子 地 减 
1， 但 是 在 这 之 前 ， 核 心 4 有 一 条 Stor 指 令 更 改 了 L， 
而 该 Stor 指 令 期 待 的 IvldRspF/N 回 应 还 没有 全 部 收 
集 完 一 一 假设 核心 1/2 已 经 回应 而 核心 3 尚未 回应 ， 
此 时 发 生 了 Dec 工 指令 再 次 操作 L， 该 指令 底层 会 再 
次 发 出 WrtIvld 消 息 ， 期 望 其 他 核心 都 回应 IvldRspF/ 
N. 而 后 ， 核 心 4 收 到 了 核心 3 发 出 的 IvldRspF 消 
息 ， 那 么 它 如 何 判断 该 应 答 是 针对 尚未 完成 的 Stor 
指令 所 回应 的 ， 还 是 针对 Dec 工 指令 所 回应 的 ? 如 
果 要 区 分 ,不 是 不 可 以 ,但 是 代价 太 高 ， 比 如 为 每 
一 轮 交 互 都 设置 一 个 Transaction ID ， 利 用 ID 来 区 
分 ， 这 就 非常 复杂 了 。 如 果 让 带 锁 指令 做 隐 式 屏 
障 ， 那 就 简单 多 了 。 


如 图 6-145 所 示 的 程序 例子 。 线 程 1 用 变量 a 向 线程 
2 传递 可 开始 执行 do0) 函 数 的 信号 ， 同 时 用 变量 b 向 线 


核心 2 
while(1) ( 
if (b == 0) ( continue;) 
if (а == 1) { do()) 

) 
bi абм 
核心 2 
Load b РАЗА, 
— 

Sfence ко 
ойшы; Стр 寄存 器 A 0 

Jmpzb2 
Load а FFA 
Стр 2 7ЕВА 1 


кос Jmpz do() 


Jmp_b 6 


M = 
Storilb 
=з. 


结合 MESIF 协 议 理解 访 存 屏障 


程 2 传递 可 开始 检查 是 否 执行 do0) 的 条 件 已 满足 。 线 程 
2 只 有 看 到 b=1， 才 会 进入 判断 是 否 可 以 执行 do0 函 数 
的 语句 中 ， 同 时 只 有 a=1 时 ， 才 会 真 的 去 执行 do0。a 
和 b 的 初始 值 都 为 0。 当 核心 1 执行 b=1 之 前 ， 核 心 2 永 
远 在 不 停 地 循环 执行 :f(b 一 0 ) {continue;} 这 人 旬 代码 ， 
一 旦 核心 1 执行 了 b=1， 且 被 核心 2 看 到 之 后 ， 核 心 2 便 
去 判断 是 否 a 也 等 于 1。 假 设 该 CPU 提 供 原生 的 Stor 指 
令 按 序 执行 ， 那 么 上 述 逻 辑 不 会 有 问题 。 

但 是 如 果 该 CPU 不 提供 Stor 指 令 原 生 按 序 执行 ， 
那么 可 能 出 现 这 种 情况 : 假设 初始 时 b 在 核心 1 中 处 于 
M 态 ， 且 b=0; a 在 核心 2 中 处 于 M 态 ， 且 a=0。 核 心 1 
执行 =1， 不 命中 缓存 ， 于 是 向 核心 2 要 求 返回 a 所 在 
的 缓存 行 并 自 废 ， 但 是 核心 2 由 于 某 些 原因 ， 比 如 组 
存 前 方 队列 已 满 ， 暂 时 无 法 执行 该 请 求 ， 于 是 迟 迟 不 
给 核心 1 返回 数据 ， 但 是 ， 由 于 该 CPU 并 不 支持 Stor 保 
序 ， 所 以 它 将 Stor_i 1 b 指 令 提前 执行 ， 又 由 于 b 已 经 
是 M 态 ， 该 指令 成 功 执行 ， 与 此 同时 ， 核 心 2 也 没 停 
下 脚步 ， 其 要 将 b 载 入 以 便 与 0 做 比较 ， 但 是 它 不 命中 
缓存 ， 于 是 向 核心 1 要 b， 恰 好 此 时 b 已 经 被 更 改 为 1， 
于 是 核心 1 返回 b=1 给 核心 2， 核 心 2 拿 到 了 b 之 后 与 1 
做 比较 一 看 条 件 成 熟 了 ， 于 是 载 入 a， 假 设 此 时 核心 2 
还 没 来 得 及 将 a 返回 给 核心 1 并 自 废 ， 那 么 Load a 寄存 
器 A 指令 载 入 的 依然 是 a=0， 所 以 不 会 执行 do()。 这 里 
就 产生 了 逻辑 错乱 ， 因 为 对 于 核心 1 而 言 ，a=1 在 b=1 
之 前 执行 ， 然 而 对 于 核心 2 却 先 看 到 了 b 的 结果 ，a 的 
结果 很 晚 之 后 才 看 到 。 这 里 思考 一 下 ， 如 果 核心 2 能 
够 保证 在 将 a 作废 掉 之 后 ， 再 执行 Load， 则 会 产生 不 
命中 ， 那 么 它 就 会 问 核心 1 要 ， 再 拿 到 的 就 是 最 新 的 a 
了 。 所 以 这 里 核心 2 自身 也 有 问题 ， 也 就 是 其 并 没有 
保证 针对 同一 个 地 址 的 访 存 操作 严格 按 序 执行 ， 明 明 
是 作废 请 求 先 到 达 的 ， 但 是 核心 2 依然 放任 Load 指 令 
在 核心 1 发 出 作废 请 求 之 前 就 执行 了 。 

但 是 ， 不 管 该 CPU 多 么 不 靠 谱 ， 多 么 乱 序 执行 ， 
我 们 依然 可 以 用 屏障 来 解决 时 序 问 题 。 如 图 6-145 右 
侧 所 示 ， 只 要 在 核心 1 的 两 条 指令 之 间 加 一 个 访 存 
屏障 ， 保 证 a=1 的 结果 被 核心 2 彻底 看 到 之 后 再 执行 
b=1， 那 么 整个 程序 逻辑 就 正确 了 。 这 里 可 以 仔细 体 
会 一 下 加 入 访 存 屏障 之 后 ， 底 层 的 CC 逻辑 是 怎么 变 
化 的 。 可 以 看 到 该 过 程 中 并 没有 使 用 锁 ， 其 原因 是 一 
写 一 读 ， 可 以 回顾 一 下 第 1 章 中 关于 异步 FIFO 队 列 的 
一 些 理论 ， 就 能 了 解 到 一 端 写 另 一 端 读 的 话 不 会 产生 
一 致 性 问题 ， 至 多 空 等 一 轮 。 但 是 如 果 多 个 核心 共同 
向 同一 个 地 址 写 入 数据 ， 那 就 必须 使 用 锁 了 。 


је 
需要 注意 的 一 点 是 ， 屏 障 并 不 会 阻塞 后 台 CC 同 
步 流量 。 图 6-145 右 侧 黄 色 箭头 表示 的 CC 流量 ， 即 


便 是 在 Stor i 1 a 产生 的 RdIvldPrb 消 息 还 没有 得 到 任 
何 应 答 之 前 ， 依 然 可 以 在 后 台 默 默 地 发 生 。 


第 6 章 “多 处 理 器 微 体 系 结构 一 一 多 核心 与 缓存 有 和 


正常 来 讲 ， 当 某 个 核心 收 到 WrtIvld、RdIvldPrb 等 
Invalidate 类 消息 之 后 ， 都 会 在 将 对 应 的 缓存 行 真 的 作 
废 之 后 ， 再 发 出 IvldRspF/N 消 息 。 这 样 ， 发 出 Invalid 
消息 的 核心 就 需要 等 待 很 久 才能 够 收 到 应 答 并 将 位 于 
TSHR 中 的 追踪 条 目 清除 ， 紧 接着 更 改 自身 的 缓存 行 
状态 。 能 否 这 样 : 核心 只 要 收 到 Invalidate 请 求 之 后 ， 
就 把 这 个 请 求 直 接 追 加 保存 到 一 个 队列 中 ， 然 后 立即 
答复 IvldRspF 消 息 给 对 方 ， 后 台 再 慢 慢 地 去 将 对 应 的 
缓存 行 作 废 ， 如 果 没 有 命中 就 忽略 ， 命 中 了 就 作废 。 
该 队列 被 称 为 失效 队列 (invalidating queue, IQ) 。 

这 样 做 可 以 保证 性 能 ， 但 是 要 付出 的 代价 是 每 
次 加 载 (Load) 读 操 作 时 都 要 并 行 查询 一 下 IQ 是 否 命 
中 ， 如 果 命 中 则 证 明 本 次 加 载 的 目标 缓存 行 已 经 被 别 
人 给 作废 了 ， 就 算 缓存 中 依然 存在 尚未 来 得 及 被 置 为 I 
的 缓存 行 ， 也 依然 直接 认为 不 命中 ， 进 入 缓存 不 命中 
处 理 流程 ， 向 总 线 发 起 RdPrb 消 息 请 求 读 入 数据 。 如 果 
加 载 没 有 命中 IQ， 那 就 再 去 缓存 中 查找 对 应 行 看 看 是 什 
么 状态 (有 可 能 也 是 I[ 态 ) ， 然 后 做 出 对 应 动作 。 这 样 
就 不 会 对 CC 逻辑 产生 任何 影响 。 还 可 以 进一步 优化 ， 
也 就 是 在 加 载 时 根本 不 查询 IQ， 达 到 省 电 升 频 目的 。 因 
为 在 多 数 场景 下 ， 程 序 之 间 是 不 访问 共享 变量 的 ， 如 果 
为 了 少数 情况 而 不 得 不 每 次 访 存 都 来 查 一 下 IQ， 就 不 
划算 了 。 但 是 毫 无 疑问 ， 如 果 每 次 访 存 都 不 查询 IQ， 
一 定 会 对 一 致 性 产生 影响 : 我 说 让 你 作废 某 行 ， 你 告 
诉 我 你 作废 成 功 了 ， 然 后 我 更 改 了 该 行 ， 你 那 边 由 于 还 
没 来 得 及 实施 作废 动作 ， 结 果 又 去 读 入 该 行 ， 读 入 的 是 旧 
的 ， 这 会 产生 时 序 上 的 逻辑 错乱 。 举 个 例子 ， 如 图 6-146 
所 示 ， 还 是 同一 个 程序 ， 但 是 初始 时 a=0， 且 同时 被 这 
两 个 核心 持 有 ， 为 s 态 ，b=0， 只 被 核心 1 持 有 ， 为 M 态 。 

如 图 6-146 左 半 部 分 所 示 ， 由 于 a 迟 迟 没有 被 真 的 
作废 ， 一 直到 Load a 寄存 器 A 语 句 执行 时 都 没有 被 作 
废 ， 而 为 了 性 能 ， 加 载 时 不 查询 IQ， 所 以 读 到 了 旧 
值 ， 导 致 执行 到 了 Jmp_b 6 处 时 跳 回 到 了 开头 ， 而 程 
序 员 期 待 的 则 是 执行 do() 函 数 。 从 核心 1 的 视角 看 的 
话 ， 条 件 都 满足 了 ， 核 心 2 既然 返回 了 IvldRspF 消 息 就 
证 明 a 的 Stor 操 作 已 经 到 达 并 被 核心 2 知晓 了 ， 但 到 头 
来 却 产生 了 逻辑 错误 。 该 逻辑 错误 的 根源 就 在 于 IQ 的 
存在 以 及 不 提供 原生 保 序 而 导致 的 先 回应 后 作废 。 

解决 办 法 如 图 6-146 右 侧 所 示 ， 只 要 在 Load a 寄存 
器 A 语句 之 前 增加 一 条 Lfence 指 令 来 保证 在 这 之 前 的 
所 有 Load 指 令 都 执行 完毕 。 而 为 了 保证 Lfence 后 面 的 
Load 指 令 的 执行 结果 正确 ， 其 必须 先 将 IQ 中 的 那些 作 
废 请 求 挨个 落实 到 缓存 中 ， 也 就 是 刷 空 IQ， 然 后 才 继 
续 执行 。 此 时 ， 执 行 Load a 寄存 器 A 语句 时 便 会 发 生 
不 命中 ， 继 而 从 核心 1 处 获得 a 的 最 新 数值 ， 成 功 地 执 
行 了 do0。 由 于 两 边 的 CC 都 有 延迟 ， 所 以 发 送 消息 方 
主动 等 待 消息 全 都 落地 有 声 ， 同 时 接收 消息 方 也 等 待 
所 有 消息 被 落实 之 后 ， 再 从 一 个 没有 交 释 的 时 序 上 继 
续 运 行 ， 就 会 得 到 正确 的 逻辑 。 所 以 ， 发 送 方 让 子弹 
飞 ， 接 收 方 等 响声 来 ， 方 可 一 致 。 


大话 计算 机 一 一 计算 机 系统 底层 架构 原理 极限 剖析 


核心 1 核心 2 
а=1 while(1) { 
Barrier( ) if (b == 0) [ continue;} 


bei if (a == 1) { 40()} } 


核心 2 
while(1) { 


Barrier() if (b == 0) ( continue;) 


b= 1 Barrier() 


if (а == 1) (do())) 
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Sfence 等 待 的 Stor Queue (SQ) 变 空 ， 即 等 待 
SQ 中 那些 暂 挂 的 Stor 请 求 都 完成 ， 也 就 是 所 有 的 
WrtIvld 请 求 都 收 到 ， 对 应 缓存 行 置 为 M 态 ， 才 视 
为 Sfence 指 令 执 行 完毕 。 可 想 而 知 ， 屏 障 指令 对 性 
能 的 影响 是 很 大 的 。 另 外 ， 如 果 取 指令 单元 不 断 
地 取 指 位 于 Sfence 之 后 的 指令 并 载 入 流水 线 ， 那 么 
可 能 会 有 更 多 Stor 类 指令 被 载 入 流水 线 ，SQ 就 永远 
不 会 室 ，Sfence 也 永远 执行 不 完 ; 但 是 如 果 完 全 阻 
塞 取 指令 以 防止 更 多 Stor 流 入 ， 又 会 把 不 相关 指令 
阻塞 在 门 外 ， 浪 费 流水 线 资源 。 所 以 另 一 种 优化 
做 法 是 给 SQ 中 最 尾部 的 条 目 做 标记 ， 当 这 条 Stor 执 
行 完毕 就 视 为 Sfence 指 令 执行 完毕 ， 后 续 的 Stor 指 令 
可 以 继续 流入 。Lfence 等 待 的 则 是 Invalidation Queue 
(IQ) 变 空 ,或 者 以 给 尾部 条 目 做 标记 的 方法 来 判 
定 Lfence 指 令 是 否 已 经 完成 。 与 Stor 场 景 不同 的 是 ， 
Load Queue (10) 和 IQ 是 两 个 独立 的 队列 ， 不 能 只 
把 IQ 做 标记 ，LQ 也 得 做 标记 ， 因 为 IJQ 里 的 条 目 对 
缓存 行 做 Invalidate 操 作 ，LQ 则 是 读 取 缓 存 行 ， 这 两 
路 动作 独立 执行 没有 沟通 ， 就 会 产生 问题 。 当 执行 
Lfence 指 令 时 ， 在 同一 个 时 钟 周 期 内 同时 对 IQ 和 LQ 
的 尾部 条 目 做 标记 ， 然 后 通过 电路 检测 出 LQ 和 IQ 内 
部 的 冲突 条 目 ，IQ 标 记 点 之 后 的 与 LQ 标记 点 之 后 
的 ， 这 两 者 之 间 必 须 保证 完全 的 同步 ， 才 能 视 Lfence 
指令 完成 。 具 体 的 同步 方法 ， 是 通过 比较 器 比较 出 
两 个 队列 中 是 否 有 针对 相同 缓存 行 地 址 的 访问 条 
目 ， 然 后 对 LQ 中 的 这 些 条 目 做 标记 。 对 于 做 了 标记 
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由 于 Load 指 令 不 同步 查询 IQ 而 导致 的 时 序 问题 


的 LQ 条 目 ， 电 路 会 暂 不 执行 它们 ，IQ 中 的 条 目 会 
被 全 速 落实 到 缓存 中 ， 只 是 LQ 中 的 相关 条 目 阻塞 
不 被 执行 。 每 个 时 钟 周期 都 会 做 对 应 检测 ， 一 旦 发 
现 之 前 做 了 标记 的 LQ 条 目 现 在 没有 与 任何 IQ 中 的 
条 目 相关 ， 就 解除 其 标记 ， 继 续 执行 之 ( 当然 可 以 
判断 其 再 执行 时 一 定 会 发 生 不 命中 从 而 发 广播 拿 到 
最 新 数值 ， 这 正 是 我 们 期 望 的 ) 。 一 直到 所 有 标记 
过 的 条 目 都 被 处 理 完毕 ， 则 视 Lfence 执 行 完 毕 。 其 
实 ， 上 面 的 冲突 检测 、 阻 塞 、 接 触 阻塞 继续 执行 的 
过 程 ， 如 果 不 是 通过 Sfence 指 令 触发 ， 而 是 底层 电 
路 在 每 个 时 钟 周期 都 去 这 么 做 的 话 ， 那 就 是 完全 对 
程序 透明 的 硬件 原生 时 序 保 障 了 ， 可 以 节省 软件 的 
复杂 度 ， 但 是 却 增加 了 硬件 复杂 度 和 功 耗 ， 也 不 利 
于 提升 频率 。 加 之 程序 并 不 是 时 刻 都 要 求 屏障 的 ， 
只 有 在 利用 共享 变量 相互 交换 数据 的 多 线程 同步 场 
景 才 会 有 这 个 要 求 ， 而 硬件 又 无 法 感知 哪个 变量 是 
共享 的 ， 什 么 时 候 要 传递 什么 数据 ， 所 以 如 果 要 让 
硬件 透明 的 实现 保 序 ， 只 能 是 用 高 射 炮 打 蚊 子 了 。 
但 是 更 多 的 实现 是 硬件 不 提供 实时 保 序 ， 而 要 求 用 
屏障 指令 来 临时 手动 触发 保 序 ， 这 样 就 很 划算 了 。 
注意 ， 这 里 不 能 说 “硬件 不 提供 保 序 ”， 硬 件 依然 
是 提供 比如 上 述 的 标记 、 同 步 机 制 的 ， 只 是 平时 根 
本 不 会 去 触发 这 些 电路 模块 ， 仅 在 收 到 屏障 指令 时 
才 会 触发 。 不 能 误 认为 硬件 完全 无 法 保 序 ， 只 能 靠 
软件 代码 ， 那 是 不 可 能 的 ， 比 如 总 线 仲 裁 过 程 ， 如 
果 没 有 仲裁 ， 只 靠 加 锁 指 令 代码 解决 访问 冲突 是 不 
可 能 的 。 很 多 东西 硬件 帮 你 做 好 了 ， 有 些 对 你 透 
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明 ， 有 些 则 需要 你 来 用 机 器 指令 和 触发。 当然， 一 些 商 用 产品 做 得 更 加 灵活 ， 可 以 通过 特殊 指令 将 控制 字 写 入 到 
内 部 控制 寄存 器 ， 动 态 地 改变 电路 当前 的 执行 模式 ， 比 如 改 为 强 一 致 性 模式 ， 那 每 个 时 钟 周期 就 都 会 动态 检测 
冲突 ， 按 序 执行 ; 或 者 被 设置 为 每 当 访问 某 些 设 定好 的 地 址 区 域 时 ， 自 动 变 为 强 按 序 执行 或 者 弱 按 序 执行 等 。 


6.9.5 


结合 MESIF 深 刻 理解 时 序 一 致 性 模型 


在 对 空间 一 致 性 有 了 充分 了 解 和 体会 之 后 ， 现 在 该 是 我 们 背 上 那个 沉重 的 时 序 一 致 性 包容 ， 来 重新 体会 时 
空 合体 的 一 致 性 的 时 候 了 。 一 个 完整 的 系统 ， 时 空 必须 一 致 ， 不 管 是 原生 硬件 保证 ， 还 是 通过 软件 向 硬件 主动 


触发 临时 保证 。 


图 6-147 为 各 种 访 存 时 序 一 览 ， 我 们 下 面 就 来 详细 介绍 每 个 模型 。 


一 致 性 模型 简称 | 中 文 名 称 | 


硬件 除 Cache Coherency 之 外 还 保证 什么 


| 软件 要 做 什么 


Ultimate Consistency UC 终极 一 致 性 原生 支持 所 有 核心 所 有 访 存 全 局 按 序 ，CC 零 延迟 完成 БР s 

Strict Consistency SC РЕВ 原生 支持 所 有 核心 所 有 访 存 全 局 按 序 ，CC 单 周期 内 完成 ” 互 斥 锁 可 

Sequential Consistency SEC ”顺序 一 致 性 原生 支持 所 有 核心 的 Stor 操 作 按 全 局 序 执行 互 斥 锁 、 微 是 屏障 可 

Processor Consistency РС ”处 理 器 一致 性 ”原生 支持 本 核心 的 所 有 Stor 操 作 按 局 部 序 执行 EFN DRR 可 

Weak Consistency МС 35—80 原生 不 保 序 ， 仅 当 指令 触发 的 同步 操作 时 保 序 互 斥 锁 、 大 量 屏 障 可 
图 6-147 各 种 访 存 时 序 模型 一 览 


6.9.5.1 终极 一 致 性 (UC ) 


终极 一 致 性 (Ultimate Consistency) 描绘 了 这 样 
一 种 时 序 模型 ， 所 有 核心 上 执行 的 指令 ， 在 全 局 范围 
内 完全 按照 时 间 先 后 执行 完毕 ， 同 时 ， 所 有 的 CC 流 
量 瞬 间 就 可 以 抵达 目的 地 并 产生 影响 〈 比 如 Invalidate 
对 应 的 缓存 行 ) ， 就 像 没 有 缓存 一 样 ， 完 全 透明 ， 如 
图 6-148 所 示 。 

为 了 防止 多 个 核心 同时 发 起 针对 同一 个 地 址 的 访 
问 ， 软 件 上 依然 需要 互 斥 锁 才 能 保证 软件 逻辑 上 正确 。 

实现 全 局 按 序 ， 只 需要 保证 每 个 核心 都 不 乱 序 执 
行 ， 每 个 访 存 指令 必须 完成 CC 同步 之 后 再 执行 后 续 
指令 ， 就 可 以 了 。 而 且 ， 必 须要 求 CC 零 延迟 同步 ， 
比如 我 加 载 一 个 处 于 M 态 的 变量 ， 如 果 你 之 前 已 经 对 
其 做 了 变更 ， 且 在 全 局 时 间 线 上 ， 你 的 变更 是 先 发 生 
的 ， 那 么 在 加 载 之 前 ， 我 必须 知道 这 个 变更 ， 所 以 必 

然而 由 于 CC 同步 不 可 能 做 到 零 延 迟 ， 所 以 该 模 
型 属于 纯 理 想 化 模型 ， 所 以 称 之 为 终极 一 致 性 。 


核心 2 
局 部 序 


核心 1 
局 部 序 


6.9.5.2 严格 一 致 性 (SC ) 


严格 一 致 性 (Strict Consistency) 模型 描绘 的 是 
一 个 可 以 实现 的 终极 一 致 性 模型 。 依 然 是 全 局 按 序 执 
行 ， 但 是 变 得 可 以 实现 。 硬 件 依然 保证 在 软件 加 锁 的 
前 提 下 保证 全 局 按 序 执行 同时 逻辑 正确 ， 虽 然 CC 无 
法 做 到 零 延迟 同步 ， 但 是 工程 上 是 可 以 做 到 在 一 个 时 
钟 周期 内 同步 完成 ， 只 不 过 该 时 钟 周期 必须 足够 长 以 
等 待 CC 流量 完 成 同步 ， 那 么 电路 的 整体 运行 频率 就 
会 很 低 ， 无 法 被 实际 应 用 。 严 格 一 致 性 的 时 序 保障 比 
终极 一 致 性 弱 了 一 些 ， 因 为 它 把 本 来 是 无 限 小 的 连续 
时 间 量 子 化 成 一 个 个 的 时 钟 周 期 了 ， 这 原本 也 就 是 计 
算 机 世界 的 基本 规律 。 至 于 现实 世界 的 时 间 是 不 是 也 
是 量子 化 行进 的 ， 就 不 得 而 知 了 。 

终极 一 致 性 和 严格 一 致 性 的 性 能 都 非常 差 ， 因 为 
不 允许 指令 乱 序 执行 ， 而 且 必须 等 待 当前 指令 CC 同 
步 完 成 才能 执行 后 续 指令 。 


6.9.5.3 顺序 一 致 性 (SEC ) 
如 图 6-149 所 示 。 顺 序 一 致 性 (Sequential 


核心 1 全 局 序 核心 2 
局 部 序 局 部 序 
чы ИЕ 


||| 
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图 6-148 全 局 按 序 模型 


可 大 话 计算 机 一 一 计算 机 系统 底层 架构 原理 极限 剖析 


Consistency) 的 模型 是 由 硬件 来 保障 所 有 核心 的 所 有 
Stor 类 指令 在 全 局 时 间 线 上 是 按 序 完 成 的 ， 但 是 并 不 
保证 其 他 指令 也 按 序 。 图 中 其 他 颜色 的 横 线 表示 某 条 
指令 ， 其 可 能 由 于 各 种 原因 被 重 排序 执行 ， 比 如 有 些 
指令 正在 等 待 CSC， 有 些 指令 由 于 没有 RAW 相 关 而 被 
提前 执行 ， 等 等 ， 最 终 导致 全 局 执行 序 并 非 与 程序 代 
码 中 原生 的 序 一 致 。 


核心 1 核心 2 
局 部 序 — 局 部 序 
Stor#0 Stor#0 
Stor#1 Stor#1 
Stor#2 Stor#2 
Stor#3 Stor#3 


图 6-149 ”顺序 一 致 性 模型 


要 做 到 顺序 一 致 性 ， 每 个 核心 需要 保证 自己 的 
Stor 类 指令 是 按 序 执行 的 ， 同 时 ， 还 需要 加 上 互 斥 锁 
的 护航 。 另 外 ， 只 要 IQ 中 有 尚未 落实 的 Invalidate 消 
息 ， 就 不 能 执行 下 一 条 Stor 类 指令 ， 因 为 IQ 不 空 意味 
着 有 其 他 核心 的 Stor 指 令 的 结果 尚未 真 的 落实 到 本 地 
缓存 中。 这样， 就 可 以 做 到 全 局 Stor 类 指令 的 序 。 这 
样 做 放松 了 对 序 的 要 求 ， 使 得 一 些 指令 可 以 提前 执 
行 ， 所 以 提升 了 性 能 。 正 因 如 此 ， 放 松 的 序 一 定 会 导 
致 一 致 性 问题 ， 所 以 该 模型 需要 程序 采用 访 存 屏障 指 
令 来 显 式 地 告诉 核心 ， 什 么 时 候 应 该 等 待 一 下 再 执 
行 。 该 模型 由 于 支持 Stor 类 指令 原生 全 局 序 ， 所 以 可 
以 降低 程序 中 屏障 点 的 数量 。 


6.9.5.4 处理 器 一 致 性 (PC ) 


可 以 看 到 ， 对 于 上 述 的 顺序 一 致 性 模型 ， 如 果 
Stor#0 与 Stor#1 完 全 不 相关 的 话 ， 比 如 它们 不 但 访问 
的 是 不 同 的 缓存 行 ， 而 且 从 程序 上 看 也 毫 无 关联 关系 
的 话 ， 那 么 强行 要 求 按 序 就 会 影响 性 能 。 于 是 ， 对 顺 
序 一 致 性 模型 的 序 再 放松 一 些 ， 便 有 了 处 理 器 一 致 性 
模型 。 处 理 器 一 致 性 (Processor Consistency) 模型 仅 
要 求 同 一 个 核心 内 部 的 Stor 类 指令 按 序 执行 即 可 。 

如 图 6-150 以 及 图 6-130 所 示 。 做 到 处 理 器 一 致 
性 ， 要 求 每 个 核心 保证 自己 的 Stor 类 指令 按 序 执行 ， 
同时 程序 依然 需要 利用 互 斥 锁 防止 访问 冲突 ， 可 以 不 
用 关心 IQ 中 未 落实 但 是 已 经 回应 的 条 目 。 处 理 器 一 致 
性 会 产生 时 序 问 题 ， 所 以 程序 需要 显 式 地 告诉 核心 什 
么 时 候 等 待 什么 操作 完成 再 执行 后 续 操作 ， 也 就 是 屏 
障 。 相 比 顺序 一 致 性 模型 来 讲 ， 由 于 多 个 核心 之 间 不 
再 与 1Q 同 步 联动 ， 那 就 会 在 更 多 场合 导致 时 序 问题 ， 
程序 中 自然 也 就 需要 更 多 的 屏障 点 ， 以 及 更 多 类 型 的 
屏障 ， 比 如 Sfence、Lfence 甚 至 Mfence， 来 保证 程序 


的 时 序 逻 辑 正确 性 。 当 然 ， 在 没有 屏障 的 时 候 ， 由 于 
序 被 更 加 放松 了 ， 其 性 能 也 比 顺 序 一 致 性 高 。 


核心 1 核心 2 
局 部 序 59 局 部 序 
Stor#1 Stor#0 
Stor#1 Stor#0 
Stor#2 Stor#3 
Stor#2 Stor#3 


图 6-150 ”顺序 一 致 性 模型 


6.9.5.5 弱 一 致 性 (WC ) 


比 处 理 器 一 致 性 更 放松 的 序 ， 那 就 是 连 处 理 器 内 
部 的 Stor 指 令 顺 序 都 不 再 要 求 了 ， 此 时 ， 任 何 指令 都 可 
以 被 乱 序 执行 ， 性 能 得 到 最 大 的 释放 ， 可 以 说 是 完全 
没有 了 限制 。 所 以 我 们 称 之 为 弱 一 致 性 模型 。 而 上 述 
那 几 种 序 的 模型 ， 总 在 某 个 方面 对 序 做 了 限制 ， 所 以 
统称 为 强 一 致 性 模型 。 弱 一 致 性 模型 就 像 脱 了 绥 的 野 
1), ERW. A, KEPE REAK EE 
互 斥 锁 来 保证 程序 的 时 序 正确 性 了 。 目 前 多 数 商用 CPU 
上 运行 的 多 数 程序 ， 都 是 在 弱 一 致 性 模型 下 运行 的 。 


6.9.6 ”缓存 行 并 发 写 优化 


单个 核心 内 的 各 级 缓存 之 间 、 单 个 CPU 片 内 各 核 
心 的 缓存 与 主 存 RAM 之 间 、 一 个 核心 的 私有 缓存 和 另 
一 个 核心 的 私有 缓存 之 间 、 不 同 CPU 芯 片 的 缓存 之 间 ， 
它们 交换 数据 的 粒度 都 是 缓存 行 粒度 ， 并 不 是 字 节 粒 
度 。 那 就 意味 着 ， 如 果 有 一 条 指令 Stor i 1 地 址 a， 其 只 
更 新 了 1 个 字 节 ， 但 是 该 地 址 所 在 的 缓存 行 整体 会 变 为 
M 态 ， 如 果 其 他 核心 需要 读 取 地 址 a 的 内 容 ， 本 核心 也 
必须 把 整个 缓存 行 传递 给 对 方 ， 这 样 做 会 浪费 大 量 的 总 
线 流 量 。 传 递 1] 字 节 ， 相 比 传递 整个 缓存 行 〈 比 如 64 字 
节 ) ， 延 迟 当然 是 前 者 小 。 但 是 如 果 以 字 节 为 粒度 来 管 
理 缓存 并 追踪 状态 ， 又 需要 大 量 的 用 于 记录 状态 的 内 
部 存储 器 ， 以 及 更 加 精细 粒度 的 控制 电路 ， 在 工程 上 
没有 实现 价值 。 以 缓存 行为 粒度 管理 则 会 引发 伪 共享 
问题 ， 导 致 乒乓 效应 ， 这 也 增加 了 无 谓 的 总 线 流量 。 

对 于 这 种 浪费 ， 业 界 也 有 一 些 技术 来 应 对 ， 叫 作 
缓存 行 并 发 写 。 其 实现 思路 是 ， 对 于 那些 不 共享 的 变 
量 ， 多 个 核心 上 的 线程 都 是 各 访问 各 的 ， 没 有 冲突 和 
交 看 ， 虽 然 这 些 访问 都 落 到 同一 个 缓存 行 ， 同 时 依然 
依靠 加 解锁 来 防止 针对 共享 变量 的 访问 冲突 。 然 后 ， 
修改 底层 的 CC 一 致 性 协议 (也 就 是 修改 CA 硬件 电路 
模块 ) ， 让 每 个 核心 更 新 数据 之 后 ， 暂 时 先 不 发 出 
WrtIvld 消 息 ， 让 多 个 线程 依然 认为 自己 独占 该 行 。 一 


直到 某 个 线程 解锁 之 前 ， 需 要 使 用 特殊 的 硬件 指令 向 
所 有 核心 发 出 一 个 信号 ， 要 求 所 有 核心 将 自己 变更 过 
的 数据 向 所 有 其 他 核心 广播 同步 。 每 个 核心 在 更 新 某 
个 缓存 行 之 前 ， 先 将 其 做 一 个 备份 存储 在 某 处 ， 当 收 
到 同步 要 求 之 后 ， 将 当前 缓存 行 与 备份 的 缓存 行 做 比 
较 ， 就 可 以 知道 哪些 区 域 变化 了 ， 从 而 广播 出 去 。 

可 以 看 到 ， 这 种 机 制 对 底层 硬件 要 求 相当 多 ， 增 
加 新 的 指令 、 总 线 增加 新 的 控制 信号 、CA 也 需要 修 
改 ， 所 以 并 没有 得 到 广泛 应 用 。 从 编译 器 优化 的 角度 
去 避免 伪 共 享 问题 会 更 加 灵活 和 直接 。 


6.9.7 Cache Agent 的 位 置 


Cache Agent， 后 续 简 称 CA， 是 实现 CC 的 关键 角 
色 。 那 么 ，CA 是 如 何 连接 到 整个 系统 拓扑 中 的 ， 这 
是 需要 仔细 研究 的 一 个 问题 。 初 步 一 想 ，CA 起 码 要 
与 用 于 存储 各 缓存 行 元 数据 的 存储 器 阵列 有 连接 ， 因 
为 针对 每 个 Stor 请 求 ，CA 都 要 根据 该 缓存 行 目前 的 状 
态 来 判断 该 发 出 什么 样 的 消息 ， 在 接收 到 外 界 的 各 种 
Invalidation 消 息 后 ，CA 还 需要 将 对 应 的 MESIF 状 态 更 
新 为 目标 值 。 同 时 ，CA 起 码 要 与 Load/Stor Queue 有 连 
接 ， 因 为 从 这 里 CA 才能 获取 到 核心 Load/Stor 单 元 访 
问 了 哪些 地 址 。 同 时 ，CA 还 要 与 缓存 控制 器 连接 ， 
因为 缓存 控制 器 负责 判断 某 个 请 求 是 命中 还 是 不 命 
中 ， 并 将 该 信号 传递 给 CA，CA 做 出 相应 判断 发 出 对 
应 消息 。CA 还 需要 将 自己 接 入 到 核心 之 间 的 总 线 /网 
络 上 ， 从 这 里 接收 来 自 其 他 核心 CA 的 广播 消息 。 

在 CPU 芯 片 内 的 每 个 核心 前 端 都 会 有 一 个 CA， 
每 个 芯片 的 MC 前 端 有 一 个 HA。 总 体 来 说 ，CA 需 要 从 
Load/Stor Queue 获 取 当 前 的 操作 以 及 地 址 、 从 缓存 控制 
器 获知 是 否 命中 、 从 缓存 元 数据 存储 器 中 获取 对 应 的 
状态 或 者 向 其 中 更 新 对 应 的 状态 、 从 核 外 总 线 上 获得 外 
界 的 CC 同步 消息 。CA 内 部 除了 有 一 块 总 控 电 路 模块 之 
外 ， 还 维护 着 比如 IQ、Micro Sequencer、TSHR 等 结构 ， 
这 些 结构 的 作用 我 们 在 前 文中 已 经 进行 了 充分 介绍 。 

但 是 ， 一 般 来 讲 ， 每 个 核心 内 部 都 有 L1 和 L2 两 个 
缓存 ，CA 是 不 是 要 同时 与 之 连接 ? 一 定 是 的 。 访 存 
操作 并 不 一 定 都 命中 L1， 一 旦 命中 了 L2， 那 么 CA 就 
需要 查找 L2 缓 存 的 元 数据 以 获取 对 应 信息 ;， 同 理 ， 接 
收 到 Invalidate 消 息 之 后 ， 目 标 缓存 行 也 可 能 位 于 L2 而 
不 是 L1。 那 么 ， 是 不 是 每 一 笔 写 入 L2 缓 存 的 流量 都 会 
引发 CC 操作 呢 ? 也 不 是 ， 前 文中 说 到 过 各 级 缓存 之 
间 会 有 预 读 、 换 出 操作 ， 这 些 操作 并 非 直接 由 核心 的 
Load/Stor 单 元 发 出 的 访 存 请 求 触发 ， 而 是 由 缓存 控制 
器 自行 决定 和 触发 。 对 于 这 些 流量 ， 需 要 与 访 存 流量 
区 分 开 ， 所 以 各 级 缓存 之 间 的 总 线 / 网 络 上 都 需要 增加 
对 应 的 控制 信号 用 于 描述 当前 的 请 求 是 什么 类 型 的 
以 便 CA 做 出 合理 判断 。 

一 般 来 讲 ，CPU 内 部 的 LLC (Last Level Cache) 组 
存 都 是 多 个 核心 共享 的 ， 比 如 在 多 数 商 用 CPU 中 ，13 缓 
存 就 是 LLC。CA 是 否 需要 与 L3 连 接 ? 假设 本 核心 向 L3 
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缓存 写 入 了 某 个 数据 ， 由 于 L3 缓 存 只 有 全 局 统一 的 一 
份 ， 该 被 写 入 的 缓存 行 也 只 存在 一 份 ， 其 他 核心 会 直 
接 从 唯一 的 一 个 位 置 访问 到 该 行 ， 所 以 天 然 就 是 一 致 
的 ， 你 也 可 以 理解 为 “瞬间 就 同步 了 ”， 因 为 只 有 一 个 
副本 。 从 这 一 点 来 看 ， 似 乎 CA 不 需要 与 L3 缓 存 连 接 。 

但 是 ， 一 旦 L1 和 L2 都 不 命中 ， 而 是 命中 了 L3 缓 
存 ， 那 么 CA 就 要 去 L3 缓 存 中 获取 该 缓存 行 的 状态 。 
另外 ， 对 于 多 个 CPU 芯片 通过 外 部 访 存 网 络 而 组 成 的 
更 大 的 系统 来 讲 ，L3 缓 存 是 被 每 个 CPU 芯片 独 享 的 ， 
那么 多 个 CPU 芯片 上 的 多 份 L3 缓 存 又 可 能 针对 同一 个 
RAM 行 缓存 多 个 副本 ， 那 就 会 有 一 致 性 问题 。 所 以 ， 
CA 也 需要 与 L3 缓 存 连接 。 

图 6-151 为 CA 在 系统 中 的 位 置 示意 图 。 该 图 描绘 
了 一 个 4 核心 CPU 内 部 的 架构 ，CA 作 为 直接 与 核 外 访 
存 总 线 打 交道 的 角色 ， 直 接 挂 接 到 总 线 上 ， 负 责 本 核 
心 的 CC 事务 。L3 缓 存 分 片 控制 器 也 需要 挂 接 到 总 线 
上 以 供 其 他 核心 直接 访问 ， 同 时 还 与 本 地 核心 、 本 地 
CA 紧密 连接 以 支撑 核心 的 访问 和 CA 处 理 CC 事 务 。 当 
然 ， 如 果 你 把 CA 看 作 是 L3 缓 存 分 片 控制 器 内 部 的 一 
部 分 ， 也 未 党 不 可 。 


SDRAM 


© воносо 
CPU 核心 13880 。 QPI 片 外 网 络 Crossbar SDRAM 内 存 Cache Agent 
(аллил) 控制 器 。 接口 控制 器 交换 器 Киш 


图 6-151 CA 在 系统 中 的 位 置 


假设 系统 中 只 有 一 个 CPU 芯片 ， 那 么 从 L2 换 出 到 
IL3 的 缓存 行 ， 在 L3 缓 存 中 就 不 需要 存储 MESIF 状 态 
了 。 但 是 如 果 系 统 中 存在 多 个 CPU， 也 就 是 多 份 独 亭 
的 L3 缓 存 ， 那 么 L3 缓 存 中 也 需要 存储 对 应 的 MESIF 状 
A ЖЕЖ. 


MESIF 状 态 位 到 底 被 保存 在 什么 位 置 ? 如 果 是 
Exclusive 模 式 〈 见 本 书 前 文 ) ， 多 级 缓存 各 干 各 的 
而 且 不 缓存 宛 余 的 条 目 ， 那 么 各 级 缓存 控制 器 就 需 
要 各 自 维护 一 个 状态 表 ， 这 个 表 到 底 放 在 哪 ， 就 看 
设计 者 了 。 上 比如， 完全 可 以 放 在 各 级 缓存 内 缓存 行 
数据 的 旁边 ， 多 开辟 一 堆 位 ; 当然 ， 也 可 以 使 用 单 
独 的 Tag 存 储 区 ; 还 可 以 同时 在 缓存 内 和 Tag 区 并 行 
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存储 状态 位 并 保持 同步 ， 这 样 有 利于 并 发 查询 。 对 
于 Inclusive 模 式 的 多 级 缓存 设计 ， 同 一 个 缓存 行 可 
能 在 LLC、L2/L1 中 都 有 一 份 副本 ， 此 时 ， 当 更 改 
LI/L2 中 的 副本 时 ， 也 需要 一 并 透 写 入 L3 缓 存 来 保 
证 一 致 。 同 理 ， 当 CA 更 新 该 行 的 MESIF 状 态 时 ， 需 
要 同时 更 改 该 行 在 LLC、LIL2 缓 存 中 的 副本 。 


6.9.8 ”基于 共享 总 线 的 嗅 探 过 滤 机 制 


从 MESIF 状 态 机 中 可 以 看 到 ， 针 对 某 个 缓存 行 ， 
对 于 处 于 S 态 的 CPU 核心 ， 其 仅仅 能 判断 出 “一 定 有 其 
他 人 和 我 共享 这 份 数据 ”， 但 是 却 不 可 能 知道 是 哪个 
CPU 与 自己 共享 ， 对 于 处 于 I 态 的 CPU 核心 要 读 取 或 写 


入 该 缓存 行 时 ， 缓 存 控制 器 会 向 总 线 上 发 送 RdIvldPrb 
消息 ， 但 是 如 果 此 时 其 他 所 有 CPU 里 面 恰好 也 都 没有 
该 行 的 数据 副本 ， 那 么 这 个 消息 就 没有 必要 被 其 他 
核心 收 到 并 查询 ， 这 样 是 很 耗费 对 方 性 能 的 。 但 是 
前 文中 提 到 过 ， 所 有 CPU 核心 是 在 半 言 状态 下 通信 ， 
只 能 去 广播 和 嗅 探 。 如 果 提 前 知道 谁 那里 有 数据 ， 
就 不 用 广播 嗅 探 了 ， 直 接点 对 点 过 去 要 就 可 以 了 。 
每 个 CPU 核心 的 CA 不 会 错过 对 任何 一 笔 总 线 上 的 
广播 信号 的 嗅 探 和 处 理 ， 每 一 笔 都 必须 搜索 Tag 表 才能 
判断 出 该 如 何 响应 。 盲 性 通信 直接 导致 了 两 个 问题 : 
一 个 是 很 多 不 必要 的 总 线 广播 流量 ， 浪 费 电能 ;第 二 
个 是 所 有 CPU 核心 嗅 探 到 消息 之 后 ， 多 数 情况 下 都 需 
要 搜索 自己 的 缓存 ， 严 重 影响 性 能 ， 同 样 也 浪费 电 。 


总 线 功 耗 及 三 态 缓冲 器 > 


总 线 能 耗 为 何如 此 之 大 ? 首先 ， 内 部 总 线 几乎 都 是 并 行 总 线 ， 动 辑 上 千 上 万 根 导线 ， 其 寄生 电容 是 很 大 
的 ; 其 次 ， 既 然 是 总 线 ， 那 就 证 明 很 多 电路 模块 都 接 到 这 条 总 线 上 各 取 所 需 ， 每 个 器 件 都 通过 某 种 关口 电路 
来 将 数据 输送 到 总 线 ， 或 者 从 总 线 收入 。 如 果 是 广播 流量 ， 那 么 总 线 上 所 有 节点 都 会 打开 关口 让 总 线 信 号 流 
入 ， 不 管 是 高 电 平 还 是 低 电 平 信号 ， 都 伴随 着 电流 流入 和 流出 连接 总 线 的 所 有 器 件 。 总 线 是 低 电 平 信号 ， 会 
吸引 连接 到 总 线 的 电路 模块 的 电流 流向 信号 源 内 部 某 接地 端 ， 所 以 需要 加 电阻 来 降低 电流 ， 否 则 功 耗 将 会 非 
常 大 ， 这 种 电阻 称 为 下 拉 电 阻 ; 反之 ， 总 线 是 高 电 平 信 号 ， 则 信号 源 只 需要 将 总 线 以 及 连接 到 总 线 的 电路 模 
块 的 有 限 区 域 充电 到 对 应 电压 即 可 。 不 管 如 何 ， 总 线 将 会 耗费 较 大 功 耗 ， 而 且 需要 强力 的 电流 驱动 力 。 

同时 ， 那 些 暂时 不 需要 使 用 总 线 的 电路 模块 ， 比 如 在 仲裁 过 程 中 未 获胜 ， 其 连接 总 线 的 电路 就 需要 被 阻 
塞 挤 ， 不 要 从 总 线 上 吸 电 或 者 放电 ， 也 就 是 不 能 把 总 线 直接 连接 到 逻辑 门 上 ， 否 则 功 耗 会 非常 高 。 因 为 逻辑 
门 里 只 有 通 和 断 两 个 状态 ，1 和 0 状态 都 会 导致 电流 从 该 处 流出 或 者 流入 ， 产 生 不 必要 功 耗 ; 而 且 会 影响 总 线 
上 其 他 各 点 的 信号 ， 比 如 信号 源 传输 低 电 平 ， 接 收 端的 电流 会 被 吸引 到 信号 源 从 而 对 地 放电 ， 如 果 此 时 其 他 某 
暂时 不 使 用 总 线 的 电路 没 关 好 门 ， 在 其 电路 上 不 小 心 放 了 1 也 就 是 高 电 平 ， 那 么 这 个 电路 便 会 跟着 放电 到 总 线 ， 
导致 总 线 电位 下 降 不 那么 迅速 ， 这 个 周期 内 的 信号 便 产 生 了 干扰 ， 无 法 分 辨 是 0 还 是 1， 而 且 徒 增 了 功 耗 。 

有 一 种 门 电路 专门 负责 “关门 ”， 这 就 是 三 态 驱动 门 。 所 谓 三 态 ， 就 是 该 门 除 了 可 以 表示 0 或 者 1 之 外 ， 
还 可 以 处 于 “高 阻 态 ”， 也 就 是 电流 流 不 进来 也 流 不 出 去 ， 相 当 于 电阻 无 穷 大 ， 这 就 算是 关门 了 。 开 门 的 时 
候 ， 则 输入 端 给 出 什么 信号 ， 输 出 端 就 给 出 什么 信号 ， 相 当 于 把 门 后 的 信号 透 过 门 传 出 去 。 图 6-152 为 一 个 三 
态 门 。EN” 端 为 0 时 ，T1 和 T2 都 截止 ， 给 出 Y 为 高 阻 关门 态 。 


(b) (c) 
图 6-152 三 态 缓冲 器 
所 谓 三 态 驱 动 门 中 的 “驱动 ”是 指 该 门 可 以 增强 输入 信号 。 比 如 输入 信号 为 1， 则 表明 总 线 接 通 后 该 点 电 
流 将 会 持续 流出 。 如 果 输 入 端的 电流 不 够 大 ， 比 如 由 于 挂 接 了 太 多 的 门 导致 电阻 电容 都 很 大 ， 那 么 就 需要 有 
个 强力 的 电源 输送 足够 的 电流 。 图 中 的 Vpo 就 是 直接 从 电源 引 过 来 的 ， 当 输入 A 为 1 时 ，T1 管 导 通 ，WVpp 对 总 
线 放电 ， 电 流 足 够 大 ， 所 以 能 够 在 规定 的 时 间 内 将 总 线 及 接收 端 一 部 分 电路 充电 到 电压 足够 高 ， 从 而 让 接收 
端 感 知 到 高 电 平 1 状态 。 这 便 是 所 谓 “ 三 态 驱动 门 ”。 图 右 侧 所 示 为 双向 驱动 电路 ， 也 就 是 可 以 向 总 线 发 送 数 


据 ， 也 可 以 从 总 线 接收 数据 。 这 种 三 态 驱动 门 经 常 
被 放置 在 总 线 边 缘 上 ， 以 及 板 内 距离 较 长 的 导线 传 
输 场景 ， 又 被 称 为 “三 态 缓冲 器 ”。 

然而 ， 由 于 基于 共享 总 线 的 Snoop 机 制 要 求 那 
些 不 发 送 数 据 的 节点 也 需要 时 时 刻 刻 嗅 探 总 线 信 
号 ， 所 以 该 场景 下 所 有 节点 都 不 能 使 用 三 态 门 接 入 
总 线 ， 那 意味 着 功 耗 会 大 增 ， 这 也 是 人 们 为 何 会 想 
尽 办 法 来 避免 不 必要 的 总 线 广播 的 原因 。 


根据 上 述 分 析 ， 如 果 能 够 从 源头 杜绝 不 必要 的 广 
播 ， 那 是 最 有 效果 的 ， 但 是 MESIF 状 态 机 中 只 有 M 态 
和 E 态 能 够 做 到 自己 读 写 访问 时 完全 不 需要 广播 ， 也 
就 是 对 广播 的 源 过 滤 ; 而 S 态 可 以 做 到 本 地 读 访 问 时 
的 源 过 滤 ，I 态 则 读 写 都 无 法 做 到 。 如 果 能 够 在 目的 
端 过 滤 掉 不 必要 的 广播 ， 不 让 它们 去 引发 查询 缓存 的 
动作 ， 就 可 以 节省 功 耗 和 提升 性 能 。 

我 们 需要 为 后 端 挡 子弹 ， 不 让 不 必要 的 广播 穿 透 
到 缓存 端 去 查 Tag 表 。 这 里 就 有 个 矛盾 了 ， 要 想 识 别 
出 “不 必要 ”的 广播 ， 那 势必 要 有 个 判断 过 程 ， 要 判 
断 ， 就 免不了 查 表 。 这 不 还 得 查 表 么 ? 是 的 ， 但 是 如 
果 这 个 表 查 起 来 :第 一 ， 很 快 ， 第 二 ， 容 量 远 小 于 根 
正 苗 红 的 缓存 Tag 表 ; =, RAE: 第 四 ， 能 滤 掉 
大 部 分 查询 ， 那 么 便 可 以 获得 收益 。 这 种 装置 被 称 为 
嗅 探 过 滤器 (snoop filter) „ 


6.9.8.1 bitmap 粗 略 过 滤 


能 够 满足 上 面条 件 的 ， 我 们 首先 想到 的 就 是 
bitmap， 这 是 最 精简 的 数据 结构 。 比 如 ， 某 缓存 可 存储 
1K 个 缓存 行 ， 则 使 用 一 个 1024 位 的 SRAM 阵 列 形成 一 
个 bitmap， 其 每 一 位 对 应 缓存 中 的 一 行 ， 如 果 该 行 有 效 
则 对 应 位 为 1， 无 效 则 为 0。 第 1 位 就 对 应 缓存 内 的 第 一 
行 ， 以 此 类 推 。 一 开始 所 有 位 都 为 0， 也 就 是 缓存 内 是 
空 的 ， 当 缓存 控制 器 发 出 读 请 求 将 某 地 址 数据 从 RAM 
(或 者 其 他 CPU 缓存 ) 中 读 入 时 ， 如 果 缓 存 采 用 组 关 
联 设计 ， 那 么 该 地 址 一 定 会 落 入 某 个 特定 行 ， 电 路 只 
要 将 行 号 信号 传递 给 译 码 器 ， 翻 译 成 bitmap 阵 列 的 Mux/ 
Demux 的 控制 信号 ， 将 对 应 的 位 进行 置 !1， 则 随 着 数据 
不 断 地 被 读 入， 就 有 越 来 越 多 的 位 被 置 为 1。 如 果 某 行 
缓存 被 换 出 了 ， 那 就 将 对 应 位 置 0。 这 个 bitmap 的 本 质 
就 是 将 所 有 缓存 行 的 Invalid 状 态 位 复制 了 一 份 出 来 。 

现在 ， 假 设 CA 嗅 探 到 总 线 上 针对 某 个 缓存 行 的 
Invalidate 广 播 的 话 ， 如 果 没 有 这 个 bitmap， 那 么 就 需 
要 使 用 缓存 行 地 址 中 的 Index 段 去 索引 到 对 应 的 缓存 
行 ， 然 后 读 出 Tag， 比 对 看 看 是 否 命中 ， 命 中 则 将 该 
行 状态 改 为 Invalid 态 ， 这 个 过 程 耗费 太 多 资源 。 现 在 
有 了 这 个 前 置 bitmap， 就 相当 于 有 了 一 个 初次 粗略 筛 
查 表 ， 收 到 Invalidat 请 求 后 ， 先 根据 地 址 索引 定位 到 
bitmap 中 表示 该 行 状态 的 位 ， 如 果 是 1， 则 表示 要 检索 
的 行 确实 在 缓存 中 ， 但 是 并 不 保证 Tag 也 相同 (还 记 
得 吗 ? 直接 关联 或 者 组 关联 模式 下 RAM 中 可 能 有 多 
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个 行 会 共享 一 个 缓存 行 ) ， 所 以 此 时 算是 一 次 过 滤 失 
败 ， 需 要 真 的 去 查询 缓存 行 元 数据 中 的 Tag 字 段 以 最 
终 决 定 是 否 命中 ， 命 中 则 将 该 行 状态 改 为 I 态 ， 并 返 
回 IvldRspF。 如 果 bitmap 的 对 应 位 是 0， 则 过 滤 成 功 ， 
表示 要 检索 的 行 在 缓存 的 任何 一 路 中 都 是 I 态 ， 此 时 
就 不 用 到 后 端 去 查 Tag 表 了 ， 直 接 返回 IvldRspN。 

所 以 ， 用 这 个 前 置 bitmap 可 以 保证 : 如 果 对 应 位 
为 0 则 表示 一 定 不 命中 ， 位 为 1 则 表示 可 能 命中 也 可 能 
不 命中 ， 必 须 把 炮火 传 到 后 方 查询 了 。 它 不 能 精准 过 
滤 ， 只 能 猜测 性 过 滤 ， 这 也 正 是 其 简单 、 查 询 快速 的 
原因 。 如 果 能 够 精准 过 滤 ， 那 其 实现 代价 基本 就 与 直 
接 去 后 端 查询 Tag 一 样 了 。 

所 以 bitmap 方 式 一 旦 过 滤 失 败 ， 就 会 徒 增 时 延 ， 
影响 性 能 ， 后 方 会 说 : “ЗЕМ, ИГ, ЖЖ 
走 开 直接 让 炮弹 打 过 来 ! ”可 能 你 会 反驳 说 : “MR 
过 滤 掉 的 那些 炮火 你 咋 不 表扬 一 下 呢 ? ”所 以 ， 要 看 总 体 
上 对 性 能 提升 了 多 少 ， 多 功 耗 降低 了 多 少 ， 是 否 划算 。 


6.9.8.2 向 量 bitmap 精 确 过 滤 


有 没有 办 法 更 加 精准 点 ? 办 法 是 有 ， 就 看 代价 
了 。 比 如 ， 大 家 可 以 自行 推导 一 下 ， 假 设 缓存 为 4MB， 
RAM 为 4GB， 后 者 除 以 前 者 等 于 1K， 也 就 是 说 这 4GB 
的 RAM 里 ， 每 1K 个 位 置 就 会 争 抢 同一 个 缓存 行 。 好 ， 
你 不 是 有 1K 个 共享 么 ， 那 么 我 就 用 1024 位 来 表征 这 
1K 个 共享 同一 个 缓存 位 置 的 RAM 行 ， 记 录 这 1K 行 里 
到 底 哪 一 个 目前 占据 了 该 行 。 每 个 缓存 行 都 配备 1024 
位 来 追踪 记录 ， 哪 个 行 占据 了 缓存 ， 就 将 对 应 的 位 置 
为 1。 显 然 ， 每 1024 位 中 只 会 有 一 位 为 1， 其 他 都 为 0。 

每 次 CA 收 到 访 存 请 求 或 者 作废 请 求 时 ， 通 过 对 
访 存 地 址 的 Index 译 码 找 出 对 应 的 缓存 行 号 ， 再 查询 对 
应 该 行 号 的 那 1024 位 到 底 哪个 是 1， 这 样 就 知道 是 哪 
个 RAM 中 的 行 位 于 缓存 中 ， 便 可 直接 算出 〈 而 不 是 
去 Tag 表 中 查 出 ) 该 行 的 Tag。 然 后 ， 与 访 存 请 求 中 的 
Tag 比 较 以 判断 是 否 命中 ， 如 果 命 中 就 去 查询 该 行 的 
MESIF 状 态 然后 做 出 相应 动作 ， 如 果 不 命中 则 直接 返 
回 对 应 的 总 线 消 息 。 


可 以 看 到 ， 上 述 思 路 给 出 了 一 种 设想 ， 为 了 精 
确 比 对 ， 每 个 缓存 行 对 应 一 个 1024 位 组 成 的 位 阵列 ， 
至 于 其 使 用 何 种 形式 ， 比 如 SRAM、D 和 触发 器 等 ， 暂 
不 关心 。 这 种 表示 方式 就 是 “向 量 ”。 所 谓 向 量 ， 
就 是 同一 件 事物 在 某 个 维度 上 的 多 个 延伸 、 衍 生 、 
副本 、 快 照 、 关 联 等 。 纵 向 上 的 多 个 点 可 能 是 无 关 
联 的 ， 每 个 点 又 在 其 横向 上 衍生 出 或 者 脱 了 一 条 长 
尾巴 ， 这 条 尾巴 里 的 每 一 个 点 与 其 都 是 相关 的 。 


不 过 ， 上 述 思路 耗费 资源 太 多 。 首 先 ， 如 果 缓 
存 行 大 小 为 64 字 节 ， 则 一 个 4MB 的 缓存 会 包含 64k 个 
缓存 行 ， 每 一 行 需要 对 应 一 个 1024 位 的 阵列 ，1024 位 
=128 字 节 ， 竟 然 比 该 行 存储 的 实际 数据 〈64 字 节 ) 都 
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大 ， 这 显然 是 不 能 接受 的 。 其 次 ， 上 述 的 设计 也 是 很 
笨拙 的 。 既 然 同一 个 缓存 位 置 只 可 能 被 一 个 人 占用 ， 
也 就 是 说 ， 这 1024 位 里 只 可 能 有 一 个 位 为 1， 那 又 何 
苦 用 1024 位 去 表示 这 种 状态 呢 ? 2" 便 可 以 表示 1024 
个 数值 ， 如 果 用 10 位 来 表示 ， 可 以 节省 很 大 的 存储 空 
间 ， 比 如 表示 “这 1024 位 中 的 第 8 位 为 1”， 那 么 就 让 
这 10 位 =0000000111 即 可 。 这 样 的 话 ， 每 个 缓存 行 对 
应 一 个 10 位 的 寄存 器 ， 共 有 64k 个 行 ， 总 共 只 需要 80 
字 节 的 容量 就 可 以 了 。 但 是 相应 的 是 需要 增加 运算 电 
路 ， 能 够 直接 根据 这 10 位 的 值 算出 其 表示 的 RAM 行 的 
地 址 ， 需 要 一 个 大 译 码 器 。 

且慢 ， 天 下 有 这 等 好 事 么 ? 这 和 正常 缓存 查询 流 
程 中 比 对 Tag 的 效果 差不多 了 。 在 上 述 场景 中 ， 你 会 
发 现 Tag 也 是 10 位 长 度 ， 而 且 内 容 与 上 述 设想 中 的 10 
位 也 最 终 会 是 一 模 一 样 的 。 那 么 ， 上 述 的 设计 ， 本 质 
上 等 效 于 将 缓存 Tag 阵 列 复制 一 份 前 置 ， 这 不 能 算是 
“过 滤 ”， 而 应 该 算 一 种 “分 担 ”， 比 如 该 复制 的 阵 
列 专 门 承担 外 部 访 存 网 络 上 的 CC 查询 ， 正 牌 的 Tag 表 
则 承担 本 核心 自己 发 出 的 访问 查询 。 有 不 少 嗅 探 过滤 
器 其 实 就 是 这 么 做 的 。 

上 述 推演 过 程 ， 绕 了 一 个 大 圈 回 到 了 原 地 。 通 
过 这 个 弯路 我 们 至 少 明白 了 一 个 道理 ， 那 就 是 要 保持 
强 精 确 性 这 个 前 提 是 换 不 来 时 间 和 效率 的 。 所 以 只 
能 降低 精确 性 ， 但 是 纯 bitmap 方 式 精准 度 太 低 ， 向 量 
bitmap 耗 费 空间 又 太 大 ， 所 以 我 们 需要 一 种 折 中 的 设 
计 ， 也 就 是 能 够 区 分 那些 纠缠 在 一 起 的 元 素 ， 但 是 又 
不 需要 区 分 到 每 一 个 ， 最 好 是 以 组 的 粒度 来 区 分 ， 就 
像 组 关联 缓存 的 设计 思路 一 样 。 


6.9.8.3 布 隆 过 滤器 与 散 列 采样 


布 隆 过 滤器 (bloom filter) 是 常用 的 一 种 过 滤 算 
法 ， 其 基本 思想 是 对 数据 进行 “采样 ”， 然 后 将 采样 
数据 写 入 一 个 数据 结构 中 保存 。 待 比 对 数据 经 过 相同 
采样 处 理 之 后 得 到 采样 数据 ， 然 后 与 之 前 保存 的 采样 
数据 进行 比 对 : 如 果 一 致 则 证 明 可 能 命中 ， 如 果 不 一 
致 ， 则 证 明 一 定 不 命中 。 

所 谓 “ 采 样 ”， 就 是 提取 出 某 份 数据 的 特征 ， 
比如 某 份 数据 为 “13579”， 假 设 你 的 采样 算法 为 函 
ЖРО, ШЕ (数据) { 如 果 数 据 中 所 有 位 都 是 奇数 ; 
return 奇数 ，else if 所 有 位 都 是 偶数 ，return 偶数 ; 
else return 混合 数 ，} 。 这 个 采样 非常 简单 粗暴 。 显 
Ж, Е (13579) 的 输出 值 为 “奇数 ”， 我 们 把 “ 奇 
数 ”二 字 保 存 起 来 ， 作 为 13579 这 份 数据 的 特征 码 。 
后 来 ， 又 有 一 份 数据 到 来 ， 为 97531， 我 们 需要 判断 
97531 与 13579 是 否 相 同 ， 怎 么 办 ? 那 就 用 程序 一 个 字 
节 一 个 字 节 地 比较 ， 全 一 样 ， 那 么 结果 就 是 相同 的 ， 
否则 不 同 。 但 是 这 样 做 开销 太 大 了 ， 如 果 要 比 对 的 数 
据 量 很 大 ， 速 度 就 会 很 慢 。 此 时 ， 如 果 我 们 先 将 这 份 
收 到 的 数据 用 FO 函数 处 理 之 后 得 出 其 特征 ， 再 拿 着 这 
个 特征 与 13579 的 特征 码 逐 字 比 对 ， 或 许 就 能 看 出 它 
们 到 底 是 否 相 同 。F(13579)=F(97531)= 奇 数 ， 但 是 这 


并 不 能 证 明 这 两 个 原文 是 相同 的 。 

也 可 以 这 样 : F( 数 据 ){ 对 数据 除 以 7 取 余 数 ， 
return 余数 }。 这 样 的 话 ，24 和 52 的 特征 码 都 是 3， 产 
生 了 冲突 ， 这 种 取 余 数 操作 产生 的 冲突 概率 太 高 了 。 
这 种 现象 被 称 为 碰撞 。 由 于 采样 函数 FO 太 简 单 粗暴 
其 无 法 提炼 出 数据 更 深层 次 的 不 同 ， 而 这 是 产生 冲突 
碰撞 的 根本 原因 。 

实际 中 所 使 用 的 函数 有 MD5 散 列 算法 函数 、 
SHA-1 散 列 算法 函数 等 ， 它 们 对 数据 原文 按照 某 种 形 
式 进 行 反复 迭代 抽样 ， 能 够 将 微小 的 不 同和 迭代 放大 ， 
最 后 输出 的 特征 码 结果 会 有 很 大 的 不 同 。 比 如 有 两 份 
数据 原文 分 别 是 00000000 和 00000001， 看 上 去 它们 只 
有 1 位 不 同 ， 但 是 经 过 散 列 函数 处 理 之 后 ， 其 输出 的 
特征 码 可 能 分 别 为 1101 和 0110， 变 得 完全 不 同 了 。 这 
种 可 以 将 微小 差距 超级 放大 然后 体现 到 特征 码 中 的 采 
样 方法 ， 俗 称 为 散 列 (hash， 又 译 为 哈 希 ) 算法 ， 意 
即 散 布 排列 的 意思 。 但 是 散 列 算法 仍然 会 导致 冲突 ， 
只 不 过 冲突 概率 大 大 降低 了 。 可 以 让 函数 输出 不 同 的 
特征 码 长 度 ， 特 征 码 长 度 越 长 ， 冲 突 的 概率 就 越 低 。 

散 列 函 数 处 理 输入 的 数据 是 需要 一 定时 间 的 ， 这 
个 时 间 如 果 与 原文 间 直 接 比较 差不多 的 话 ， 那 么 就 不 划 
算 了 。 如 果 只 与 一 份 数据 比较 ， 当 然 不 划算 ， 但 是 算出 
一 份 特征 码 ， 可 以 与 大 量 其 他 待 比较 数据 的 特征 码 比 
较 ， 这 样 就 省 下 了 与 所 有 其 他 数据 都 进行 逐 字 节 比 较 的 
开销 ， 特 征 码 只 算 一 次 ， 多 次 使 用 ， 速 度 上 就 体现 出 了 
差别 。 可 见 ， 特 征 码 的 长 度 必 须 远 小 于 原文 长 度 ， 才 有 
意义 。 如 果 尺 寸 与 原文 差不多 ， 那 速度 就 没有 提升 了 。 

综 上 所 述 ， 利 用 哈 希 散 列 算法 把 数据 原文 哈 一 下 ， 
哈 出 一 个 远 小 于 原文 的 特征 码 保存 起 来 ， 能 够 节省 存 
储 空间 ， 同 时 保证 在 足够 低 的 冲突 概率 下 ， 判 断 出 某 
两 份 数据 是 否 是 相同 的 ， 这 就 是 一 种 资源 耗费 较 小 的 
快速 匹配 算法 。 假 设 共 有 2 32 份 数据 ， 散 列 的 特征 码 长 
度 为 16 位 ， 那 么 要 做 到 上 述 匹 配方 式 ， 就 必须 准备 一 
个 能 够 容纳 4G*16=8GB 的 存储 空间 来 存放 散 列 结果 ， 
而 且 每 次 比 对 均 需 要 从 这 8GB 里 面 读 出 对 应 的 16 位 来 与 
待 比 对 数据 计算 出 的 16 位 比较 ， 这 个 开销 依然 太 大 。 

布 隆 (Burton Howard Bloom) 使 用 了 一 种 巧妙 
的 方法 大 大 缩小 了 占用 的 空间 ， 而 且 查找 起 来 也 非常 
迅速 。 其 特殊 之 处 在 于 ， 并 不 保存 特征 码 结果 ， 而 是 
将 这 16 位 的 特征 码 再 次 进行 采样 ， 其 采样 函数 是 : 把 
这 16 位 当 作 一 个 索引 ， 然 后 用 这 个 索引 去 将 某 个 长 度 
至 少 为 2 个 位 的 bitmap〔 共 占用 8KB 空 间 〉 中 对 应 该 
索引 位 置 的 位 置 1。 比 如 某 数据 A， 采 样 结果 为 0000 
0000 0000 0001， 则 就 把 bitmap 中 的 第 2 位 置 1 (因为 
2'=2); 同 理 ， 比 如 数据 B 的 采样 结果 为 0000 0000 
0000 0110， 则 对 bitmap 中 的 第 7 位 置 1， 如 果 结 果 为 
1111 1111 1111 1111， 则 将 bitmap 中 最 后 一 位 置 1， 经 
过 这 样 处 理 之 后 ， 每 一 份 数据 的 特征 码 只 占用 1 位 。 
待 比 对 数据 到 来 后 ， 采 用 同样 的 采样 方法 计算 出 结 
果 ， 再 用 结果 索引 bitmap， 读 出 对 应 偏 移 量 处 的 位 。 
如 果 对 应 的 位 为 1， 则 表明 现 有 的 数据 中 已 经 存储 过 


同样 的 数据 ， 也 就 是 命中 了 bitmap。 

但 是 正如 上 文 那个 对 7 取 余数 的 操作 一 样 ， 如 
果 给 出 一 个 结果 “3”， 则 会 有 10、24、52 等 无 限 
多 的 结果 ， 除 以 7 取 余数 都 等 于 3。 所 以 ， 如 果 预 先 
存 入 一 个 数 ， 比 如 52， 然 后 假设 算出 其 散 列 值 =3， 
将 bitmap 的 第 3 位 〈 从 0 开始 算 ) 置 1， 而 后 ， 欲 查找 
8888 这 个 值 是 否 已 经 被 存 入 ， 则 除 以 7 取 余 数 等 于 5， 
查找 bitmap 中 的 第 5 位 ， 发 现 未 被 置 1， 则 一 定 证 明 
当前 集合 中 没有 “8888” 这 个 数据 ， 如 果 欲 比 对 59 
这 个 值 是 否 已 经 存 入 当前 集合 ， 则 除 以 7 取 余 数 等 于 
3， 查 找 bitmap 中 第 3 位 发 现 为 1， 则 表示 之 前 已 经 存 
А “59” ТА? 其 实 根本 没有 存 入 过 59， 之 前 存 入 的 
52 和 59 发 生 了 碰撞 ， 这 就 得 到 了 错误 的 结论 ， 也 就 
是 误 判 。 也 就 是 说 ， 该 算法 结果 如 果 为 不 命中 ， 则 
100% 不 命中 ; 如 果 结 果 为 命中 ， 则 可 能 是 假 命 中 。 

如 何 降低 误 判 率 ? 52 和 59 除 以 7 都 余 3， 但 是 除 以 
5 却 是 一 个 余 2 一 个 余 4， 除 以 9 则 一 个 余 7 一 个 余 5。 所 
以 ， 针 对 存储 在 集合 中 的 值 ， 如 果 我 们 对 每 个 值 使 用 
Pio 3 3 ]Əsqd 
应 成 多 个 索引 ， 再 对 应 到 bitmap 中 将 多 个 位 都 置 1， 
可 以 很 大 程度 上 降低 碰撞 概率 。 ие 
别 除 以 5/7/9 取 余数 ， 已 存 入 的 两 个 值 52 和 59 只 有 1 位 
碰撞 ， 但 是 其 他 2 位 有 效 ， 欲 查询 88 是 否 在 集合 中 ， 
将 其 分 别 除 以 5、7、9， 发 现 余 数 对 应 的 索引 位 置 上 
都 为 1， 则 判断 88 在 集合 中 ， 发 生 了 误 判 。77 除 以 7 余 
数 为 0， 则 对 应 到 第 0 位 ， 而 第 0 位 =0， 所 以 不 命中 ， 
66、99 均 未 命中 。 


TE 小 规律 ， 偶 数 


值 的 余数 是 按照 5、7、9 渐 增 的 ; 奇数 值 则 是 按照 
7、5、9 排 列 的 。 当 然 这 可 能 只 是 特殊 或 者 没什么 
大 不 了 的 。 不 过 ， 我 们 需要 敏感 、 发 现 、 思 考 ， 这 
是 基本 素养 。 不过， 冬瓜 哥 并 不 打算 研究 这 个 规 
Ж, Gu 381632 R T , 


发 生 了 误 判 后 该 如 何 处 理 ? 当然 ， 该 设计 是 无 法 
知道 “ 误 判 ”这 个 结果 的 ， 但 却 能 精准 判断 不 命中 ， 
也 就 是 所 谓 的 True Miss 和 False Hit, 

如 果 将 该 设计 用 作 缓 存 命中 查询 过 滤器 ， 则 较 
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为 契合 。 令 集合 中 值 为 32 位 的 内 存 地 址 ， 生 成 一 个 足 
够 容量 的 bitmap， 选 择 三 种 或 者 更 多 种 散 列 算法 ， 将 
某 个 地 址 散 列 成 三 个 或 者 多 个 散 列 值 ， 然 后 映射 到 
bitmap 中 的 三 个 或 者 多 个 位 置 1， 就 生成 了 一 个 精简 的 
过 滤 装 置 : 那些 未 命中 的 是 一 定 未 命中 ， 被 过 滤 掉 ; 
那些 命中 或 者 误 判 的 ， 穿 透 到 缓存 做 精确 匹配 。 这 样 
便 可 以 过 滤 大 量 不 必要 的 广播 穿 透 到 缓存 控制 器 。 

但 是 这 种 设计 存在 一 个 问题 ， 那 就 是 只 能 向 集合 
中 追加 元 素 ， 而 不 能 删除 某 个 元 素 ， 比 如 图 6-153 中 
的 52 和 59 在 第 3 位 产生 了 碰撞 ， 它 们 共享 该 位 。 如 果 
删除 532， 正常 应 该 将 该 位 置 0， 但 是 不 能 ， 因 为 59 还 
在 用 之 ， 而 系统 又 没有 一 个 数据 结构 来 追踪 某 个 位 当 
前 正在 被 谁 使 用 ， 所 以 不 能 删 。 如 果 不 能 删 ， 那 就 是 
一 锤子 买卖 ， 也 就 是 说 随 着 数据 的 不 断 写 入 和 删除 ， 
bitmap 中 会 逐渐 被 填 满 1 而 从 来 不 会 回收 那些 理应 被 
置 0 的 位 ， 过 滤 网 一 次 性 用 完 即 废 。 如 此 ， 所 有 位 会 
逐渐 变 成 1， 误 判 率 也 会 越 来 越 高 ， 最 后 就 是 100% 命 
中 ， 广 播 全 穿 透 ， 过 滤 效 率 降 为 0。 

解决 的 办 法 也 很 直接 ， 那 就 是 增加 一 个 数据 结构 
来 追踪 某 个 位 的 使 用 状态 ， 很 自然 会 想到 计数 器 。 为 
bitmap 中 的 每 个 位 设置 一 个 单独 的 计数 器 ， 集 合 内 每 
增加 一 个 元 素 ， 该 元 素 所 对 应 的 位 在 被 置 1 的 同时 ， 其 
对 应 的 计数 器 也 被 加 1， 当 删 掉 某 元 素 时 ， 对 应 的 位 计 
数 器 减 1, 当 计数 器 的 值 降 为 0 时 ， 证 明确 实 没 有 任何 元 
素 再 使 用 该 位 ， 则 将 该 位 置 为 0。 这 种 目的 的 计数 器 也 
被 称 为 Reference Tag， 它 记录 当前 有 多 少 元 素 正在 支撑 
着 该 位 。 计 数 器 的 上 限 是 通过 概率 模型 分 析 确 定 的 ， 
4 位 长 也 就 是 16 个 数值 的 计数 器 ， 其 发 生 溢出 的 概率 
小 于 10 “， 所 以 大 部 分 场景 下 4 位 的 计数 器 完全 够 用 。 

如 果 将 布 隆 过 滤器 用 硬件 数字 电路 实现 ， 那 就 
是 硬 加 速 ， 如 果 用 软件 来 实现 《〈 靠 CPU 写 入 / 读 出 / 判 
断 ) ， 那 就 是 软 实现 。 布 隆 过 滤器 目前 被 广泛 用 于 软 
搜索 加 速 ， 如 图 6-154 所 示 。 


6.9.8.4 JETTY filter 


布 隆 过 滤器 需要 对 目标 元 素 计算 多 个 散 列 ， 这 显 
然 影响 了 速度 。2001 年 ， 多 伦 多 大 学 的 Moshovos 等 
人 给 出 了 一 个 比 布 隆 过 滤器 速度 更 快 、 耗 费 更 多 电路 
但 是 仍 在 可 接受 范围 内 的 设计 ， 可 以 执行 通用 嗅 探 过 
滤 。 其 不 需要 进行 散 列 计算 。 
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图 6-153 ”用 多 个 散 列 算法 /函数 分 别 计算 
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图 6-154 传统 (22) 及 可 以 删除 元 素 的 〈 右 ) 布 隆 过 滤器 


设 访 存 地 址 为 40 位 长 ， 缓 存 行 大 小 为 256 字 节 
(占用 8 位 )， 那 就 意味 着 整个 40 位 存储 空间 包含 2” 
(40-8=32) 个 256 字 节 的 行 ， 也 就 是 剩余 的 32 位 其 实 
可 以 看 作对 每 一 行 的 索引 序号 ， 直 接 用 该 索引 来 作为 
每 一 行 的 特征 码 ， 不 需要 单独 算出 特征 码 。 

如 果 生 成 一 个 含有 22 位 的 bitmap， 某 位 为 0 表示 
该 位 对 应 的 行 并 没有 被 缓存 ， 为 1 则 表示 其 被 缓存 
了 。 每 次 收 到 某 个 访 存 地 址 ， 取 其 高 32 位 作为 索引 ， 
直接 定位 该 bitmap 中 对 应 的 位 ， 判 断 其 值 就 可 以 精确 
判断 该 行 是 否 在 缓存 中 。 但 是 ， 这 个 bitmap 的 容量 将 
为 512MB， 根 本 就 不 可 接受 。 其 实 这 种 做 法 与 6.9.8.1 
节 中 的 bitmap 是 一 样 的 思路 ， 只 不 过 前 文中 的 bitmap 
只 索引 缓存 中 的 行 ， 但 是 由 于 一 个 缓存 行 可 能 对 应 多 
个 RAM 行 ， 所 以 误 判 率 很 高 ， 而 本 节 的 这 个 bitmap 是 
索引 了 所 有 的 RAM 行 ， 不 会 有 冲突 ，100% 精 确 ， 但 
是 又 占用 了 大 量 空间 。 

怎么 解 ? Moshovos 等 人 采用 了 一 种 巧妙 的 方式 ， 
破除 这 32 位 索引 的 耦合 性 ， 将 其 分 割 成 4 个 互 不 关联 的 
段 ， 每 段 8 位 ， 然 后 针对 每 个 8 位 段 记录 2 =256 个 计数 
器 (8 位 可 表示 256 个 地 址 分 段 ， 每 个 地 址 分 段 对 应 一 
个 计数 器 ) ， 这 样 一 共有 256X4=1024 个 计数 器 。 

每 当 缓存 载 入 某 个 地 址 的 数据 后 ， 该 模块 先 将 
该 地 址 拆 分 成 4 段 ， 分 别 译 码 ， 然 后 分 别 索引 到 对 应 
的 计数 器 上 将 对 应 的 4 个 计数 器 +1。 当 收 到 某 个 CC 请 
求 ， 则 将 该 请 求 的 地 址 分 成 4 段 然后 分 别 索 引 到 对 应 
的 计数 器 上 ， 检 查 这 4 个 计数 器 的 数值 是 否 都 不 为 0: 
如 果 是 ， 则 证 明 该 缓存 行 可 能 位 于 缓存 中 ， 如 果 至 少 
有 一 个 计数 器 的 值 为 0， 则 证 明 该 缓存 行 一 定 不 在 组 
存 中 ， 一 定 不 命中 。 

可 以 看 到 ， 这 4 段 地 址 段 之 间 的 关联 性 也 就 随 之 
消失 了 。 比 如 有 两 个 32 位 地 址 ，ABCD 和 ABEF， 头 
两 段 是 相同 的 ， 都 是 A 和 B， 当 ABCD 被 载 入 时 ，A 
和 B 对 应 的 计数 器 被 +1 (C 和 D 也 +1 但 是 我 们 此 时 并 不 
关心 ) ， 而 后 ABEF 也 被 载 入 ，A 和 B 再 次 被 +1， 此 时 
便 出 现 了 2 条 根本 不 存在 于 缓存 内 的 地 址 组 合 : АВСЕ 
和 ABED， 如 果真 的 有 CC 请 求 访问 这 两 个 地 址 ， 该 


装置 会 误 判 为 命中 ， 于 是 穿 透 到 缓存 去 查询 ， 但 是 
查询 最 终 的 结果 是 Tag 不 匹配 ， 不 命中 。 也 就 是 说 ， 
这 种 精准 耦合 性 的 打破 ， 引 来 了 一 定 概率 的 误 判 。 

该 过 滤器 也 支持 删除 某 个 已 经 不 被 缓存 的 缓存 行 
地 址 ， 只 要 将 该 地 址 中 的 4 个 分 段 对 应 的 四 个 计数 器 
都 置 为 -1 即 可 。 此 外 ， 将 地 址 分 成 4 段 并 行 译 码 可 以 
大 大 提升 速度 。 如 果 以 32 位 整体 译 码 ， 除 了 上 述 的 容 
量 非常 大 不 可 行 之 外 ， 译 码 器 电路 也 会 非常 大 ， 时 延 
高 ， 速 度 慢 ， 所 以 分 成 4 段 并 行 译 码 ， 并 行 记录 ， 并 
行 比 对 ， 使 得 其 速度 非常 快 。 

图 6-155 为 该 过 滤器 的 作用 的 示意 图 。 每 个 计数 
器 旁边 还 有 一 个 P 位 ， 也 就 是 “Present”〔 存 在 ) 
的 意思 : 当 计 数 器 值 为 0 时 ， 对 应 的 P 置 为 0， 当 计数 
器 值 大 于 0 时 ，P 置 为 1 。 比 对 电路 可 以 直接 从 P 的 信 
号 判断 是 否 命 中 ， 而 无 须 读 出 多 个 位 的 计数 器 值 比 
较 ， 降 低 了 电路 规模 。 当 该 过 滤器 收 到 CC 广播 来 的 
地 址 ， 进 行 译 码 后 索引 到 对 应 计数 器 时 ， 如 果 4 个 计 
数 器 的 P 位 都 为 1，4 路 1 经 过 与 非 门 输出 为 0， 表 示 命 
中 《可 能 命中 ) ; 如 果 有 任何 一 路 输出 为 0， 与 非 门 
输出 为 则 为 1， 表 示 不 命中 一 定 不 命中 )〉。 
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图 6-155 JETTY 过 滤器 


该 过 滤器 被 Moshovos 等 人 取 名 为 JETITY， 被 广 
泛 应 用 于 总 线 架 构 的 CPU 缓存 设计 中 。 其 比 简单 的 


bitmap 方 式 耗 费 更 多 的 电路 但 是 更 精准 ， 而 比 向 量 
bitmap 方 式 精准 度 低 但 是 耗费 更 少 的 电路 。 
提示 > 
上 述 JETTY 过 滤器 为 Inclusive 模 式 的 。 还 有 一 
类 Exclusive 模 式 的 过 滤器 ， 其 仅仅 记录 那些 不 命中 
的 事件 。 比 如 某 缓存 行 被 剔除 或 者 被 Invalidate 作 刻 
了 ， 或 者 收 到 其 他 CPU 总 线 读 请 求 ， 本 地 缓存 控制 
器 查询 后 发 现 未 命中 ， 则 该 地 址 也 被 Exclusive 模 式 
过 滤器 记录 下 来 。 当 被 记录 的 地 址 后 续 发 生 了 写 入 
操作 (等 价 于 从 不 命中 变 为 命中 ) ， 则 过 滤器 将 该 
地 址 从 记录 中 删 掉 。 过 滤器 容量 有 限 ， 当 记录 塞 满 
之 后 ， 再 有 新 的 不 命中 地 址 进入 时 ， 必 须 替 换 出 老 
的 记录 ， 这 样 老 的 记录 就 不 能 被 过 滤 了 。Exclusive 
模式 过 滤器 实现 简单 ， 但 是 需要 预 热 过 程 ( 积攒 足 
够 多 的 记录 ) ， 并 且 需 要 足够 大 的 容量 才能 有 较 好 
的 过 滤 效 果 。 


6.9.8.5 流 寄存 器 式 过 滤器 


IBM 的 研究 人 员 在 其 蓝 色 基 因 /P 超 级 计算 机 的 
CPU 里 使 用 的 是 流 寄存 器 式 过 滤器 (stream register 
filter) 。 其 设计 更 为 精简 ， 在 当时 的 工艺 制程 下 ， 
电路 面积 仅 为 0.108 mm’, ÆJETTY (0.720 шш”) 
的 六 分 之 一 。 但 是 ， 其 过 滤 效 果 是 不 如 JETTY 的 ， 
只 有 在 特定 场景 下 才能 体现 出 很 高 的 效率 。 其 设计 
思想 与 布 隆 过 滤器 类 似 ， 都 是 一 次 性 的 ， 越 用 效果 
越 差 ， 一 直到 整个 滤芯 失效 。 其 核心 是 两 个 地 址 
寄存 器 。 比 如 当 缓 存 载 入 某 地 址 A=0x12345678 的 
数据 时 ， 地 址 A 被 写 入 其 中 一 个 寄存 器 (被 称 为 基 
地 址 寄存 器 ) ， 同 时 另 一 个 寄存 器 全 为 1， 也 就 是 
0xFFFFFFFF (32 个 1) ， 这 个 全 为 1 的 寄存 器 被 称 为 
HI (Mask) 寄存 器 ， 全 为 1 表示 “精确 指 代 ”， 
对 应 该 例 ， 就 是 “仅仅 指 代 0x12345678 本 身 ”; ЊЕ 


: 0x12345678 到 0x1234567F 
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后 ， 又 有 B=0x12345679 地 址 的 数据 被 读 入 缓存 ， 仅 
仅 使 用 这 两 个 寄存 器 该 如 何 记录 “目前 有 A 和 B 两 个 
地 址 的 数据 在 缓存 中 ”这 件 事 ? 此 时 你 可 以 闭 目 思 
考 一 下 。 

办 法 是 : 基地 址 寄存 器 变 为 最 新 进入 的 地 
址 ， 即 0x12345679， 但 是 要 将 掩 码 寄存 器 变 为 
0xFFFFFFFE， 对 应 的 二 进 制 为 1111 1111 1111 1111 
1111 1111 1111 1110， 最 后 一 个 0 表示 其 掩蔽 的 地 址 
在 该 位 可 以 任意 ， 但 是 高 31 位 必须 与 基地 址 的 高 31 
位 相同 ， 所 以 ， 上 述 的 基地 址 + 掩 码 组 合 ， 所 能 够 表 
示 的 地 址 范围 就 是 0x12345679 (基地 址 ，16 进 制 9 的 
二 进 制 是 1001) 和 0x12345678 (16 进 制 8 的 二 进 制 是 
1000) 这 两 个 地 址 。 

为 什么 不 能 涵盖 0x12345677 呢 ?因为 最 后 一 位 7 
的 十 六 进 制 转 二 进 制 后 是 1110， 而 基地 址 最 后 4 位 二 
进 制 是 1001， 上 面 的 掩 码 表示 只 允许 最 后 一 位 任意 ， 
1110 和 1001 是 中 间 两 位 不 同 ， 所 以 该 掩 码 不 能 涵盖 
0x12345677。 同 理 可 举 出 更 多 例子 ， 如 图 6-156 所 示 ， 
该 图 为 一 些 掩 码 和 基地 址 组 合 之 后 可 表示 的 地 址 范 
围 ， 可 以 看 作 是 部 分 真 值 表 ， 难 以 找到 规律 ， 其 实 
有 个 公式 可 以 很 简单 地 计算 出 新 的 掩 码 : 新 基地 址 = 
新 地 址 ;新 掩 码 = 新 地 址 AND (新 地 址 XOR 新 基地 
址 ) ， 这 样 对 于 电路 来 讲 就 非常 简单 了 。 

对 于 广播 过 来 的 待 过 滤 地 址 ， 利 用 公式 X=~ 掩 码 
OR СЕНЕ KNOR 待 比较 地 址 ) 算出 Xx (其 中 ~ 表示 
取 反 ) ， 只 要 X 中 至 少 有 一 位 是 0， 则 表示 不 命中 (一 
定 不 命中 ) ， 如 果 全 为 1 则 表示 命中 〈 可 能 命中 ) 。 

可 以 看 到 ， 假 设 只 有 一 对 儿 寄 存 器 (基地 址 + 掩 
码 ) ， 如 果 访 存 地 址 的 跨度 太 大 ， 那 么 掩 码 就 必须 
同时 涵盖 所 有 曾经 载 入 过 的 地 址 。 最 极端 的 例子 ， 
比如 第 一 个 载 入 的 地 址 为 0xFFFFFFFF， 此 时 基地 址 
和 掩 码 都 是 0*FFFFFFFF， 紧 接着 第 二 个 载 入 的 地 址 为 
0x00000000， 那 么 此 时 基地 址 是 0x00000000， 掩 码 就 
必须 涵盖 这 两 个 没有 任何 一 位 相同 的 地 址 ， 所 以 只 能 


基地 址 可 以 是 ARBA 则 表示 范围 是 地 址 数量 
0х12345678 或 0x12345679 OxFFFFFFFE Ox12345678 与 0x12345679 2 
0x12345678 ~ 0x1234567B 任 意 OxFFFFFFFC 基地 址 周围 4 个 ， 例 如 0x12345678 ~ 0x1234567B 4 
0x12345678 ~ 0x1234567F 任 意 OxFFFFFFF8 基地 址 周围 8 个 ， 例 如 0x12345678 ~ 0x1234567F 8 
范围 : 0x12345670 到 0x1234567F 
基地 址 可 以 是 ERBA 则 表示 范围 是 地 址 数量 
0x12345670 ~ 0x1234567F 任 意 OxFFFFFFFO 基地 址 周围 16 个 ， 例 如 0x12345670 ~ 0x1234567F 16 
0х12345670 ~ 0x1234567F 任 意 OxFFFFFFFC 基地 址 周围 4 个 ， 例 如 0x12345678 ~ 0x1234567B Ж 
: 0x12345670 到 0x1234568F 
基地 址 可 以 是 ERBA 则 表示 范围 是 
0x12345670 ~ 0x1234568F 任 意 OxFFFFFFOO 基地 址 周围 256 个 ， 例 如 0x12345670 ~ 0x1234567F 16 
范围 : 0x12345668 ( 8 不 能 变 ) 到 0x123456F8 ( 8 不 能 变 ) 
基地 址 可 以 是 ERBA 7 地 址 数量 
0x12345678 或 0x123456F8 OxFFFFFF7F 0х12345678 与 0x123456F8 2 
Ox12345678/0x12345638/0x123456B8/0x123456F8 | 0xFFFFFF3F | 0х12345678 或 0x12345638 或 0x123456B8 或 0x123456F8 4 


图 6-156 “一些 掩 码 的 掩蔽 结果 示意 图 
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是 0x00000000， 也 就 意味 着 不 掩蔽 ， 全 都 可 以 任意 ， 
那么 这 个 过 滤器 此 时 就 完全 失效 了 ， 不 能 够 过 滤 任 何 
地 址 。 当 然 上 述 例子 只 是 极端 情况 ， 实 际 中 ， 掩 码 寄 
存 器 里 为 0 的 位 会 越 来 越 多 ，0 越 多 误 判 率 就 越 高 。 所 
以 ， 实 际 中 需要 使 用 多 对 寄存 器 ， 多 个 滤芯 ， 分 别 承 
担 不 同 地 址 范围 的 过 滤 ， 这 样 效率 会 大 大 提高 ， 失 效 周 
期 也 会 拉 长 。 

除了 使 用 多 个 寄存 器 对 儿 之 外 ， 还 可 以 在 适当 时 
候 将 已 经 失效 的 寄存 器 重 置 ， 原 地 满 状态 复活 。 但 是 
不 能 随便 就 重 置 之 ， 因 为 重 置 之 后 ， 缓 存 内 已 载 入 的 
地 址 过 滤器 是 追踪 不 到 的 ， 会 发 生 False Miss 误 判 而 不 
是 Flash Hit 误 判 了 ， 前 者 是 会 产生 程序 逻辑 错乱 的 。 
但 是 先贤 们 的 智慧 是 令 人 钦佩 的 ，IBM 的 设计 者 们 想 
到 一 个 办 法 ， 也 就 是 当 判 断 出 滤芯 效率 很 低 时 ， 将 当 
前 滤芯 复制 一 份 ， 然 后 启用 新 滤芯 ， 对 收 到 的 地 址 在 
两 个 滤芯 中 做 同步 查询 过 滤 ， 其 中 旧 滤 芯 不 再 追踪 新 
载 入 地 址 ， 完 全 由 新 滤芯 追踪 ， 相 当 于 交接 期 两 者 并 
行 运行 ， 那 么 什么 时 候 旧 滤芯 可 以 完全 退出 呢 ? 那 一 
定 是 其 内 部 追踪 的 地 址 范围 已 经 完全 不 可 能 被 用 得 到 
的 时 候 ， 也 就 是 自从 交接 开始 算 ， 到 整个 缓存 里 的 缓 
存 行 全 都 被 替换 了 一 遍 之 后 ， 此 时 ， 新 滤芯 里 的 掩 码 
便 会 涵盖 缓存 内 所 有 已 载 入 的 地 址 ， 此 时 旧 滤 芯 可 以 
彻底 被 重 置 变 成 新 滤芯 ， 然 后 循环 使 用 。 

过 滤 装 置 如 何 判 断 缓存 内 的 缓存 行 已 经 全 部 被 替 
换 了 一 遍 ? 那 一 定 需要 缓存 控制 器 在 每 次 进行 缓存 行 
替换 的 时 候 ， 通 知 该 过 滤 装 置 。 比 如 ， 蓝 色 基 因 / 的 
CPU 缓 存 控制 器 完全 是 一 个 挨 着 一 个 替换 的 ， 也 就 是 
Round Robin 模 式 ， 这 就 给 设计 带 来 了 很 大 的 简便 性 。 
过 滤器 只 要 维护 一 个 计数 器 ， 每 收 到 缓存 控制 器 发 送 
来 的 替换 信号 ， 就 把 计数 器 +1， 当 计数 器 达到 与 缓存 
行 数 相同 时 ， 就 证 明 全 部 被 替换 了 一 遍 。 

图 6-157 为 流 寄存 器 式 (SR) 过 滤器 的 示意 图 。 
HP, Update Logic 是 主要 用 来 根据 新 地 址 计算 新 掩 
码 的 电路 逻辑 ，Cache Wrap Detection 就 是 上 述 的 检 
测 缓存 内 缓存 行 被 全 部 替换 事件 的 逻辑 ， 其 余 就 是 命 
中 /未 命中 信号 输出 以 及 广播 透 传 逻 辑 。 之 所 谓 被 称 
为 “ 流 式 ” 寄 存 器 ， 就 是 指 其 能 够 使 用 非常 小 的 空间 
在 非常 快 的 速度 下 瞬间 比 对 新 数据 和 大 量 的 老 数据 ， 
随 着 数据 的 “ 流 过 ”， 结 果 立 即 就 出 来 了 。“ 流 式 计 
算 ” 也 是 类 似 的 含义 。 
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图 6-157 流 寄存 器 式 过 滤器 


6.9.8.6” 带 计数 器 的 SR 过 滤器 


SR 过 滤器 滤芯 是 一 次 性 的 ， 也 就 是 不 能 够 删除 其 
中 某 个 地 址 ， 掩 码 不 可 逆 回 ， 因 为 掩 码 涵盖 范围 的 每 
一 次 扩充 都 会 撒 带 涵盖 一 些 根本 不 存在 于 缓存 内 的 组 
存 行 地 址 ， 而 又 无 法 追踪 和 记录 这 些 地 址 ， 所 以 无 法 
将 掩 码 范围 缩 回 ， 最 终 只 能 采用 不 断交 替 更 换 滤芯 的 
方式 。 而 带 计数 器 的 SR 过 滤器 (Counter SR) 则 很 简 
单 地 给 这 套 滤 芯 增加 了 计数 器 来 追踪 那些 被 剔除 或 者 
Invalidate 的 地 址 ， 从 而 可 以 让 滤芯 实时 恢复 状态 。 

图 6-158 为 带 计 数 器 的 SR 过 滤器 ， 其 综合 了 
JETTY 和 SR 的 查询 方式 ， 首 先 将 地 址 分 为 2 段 ( 不 
算 行 /页 内 偏 移 段 ) : 一 段 为 索引 ， 用 来 定位 到 某 个 
SR， 追 踪 和 匹配 的 地 址 都 会 落 入 同一 个 SR， 这 样 就 
很 好 地 延长 了 失效 周期 ， 从 而 提高 了 效率 ， 另 一 段 是 
Tag， 对 于 新 载 入 地 址 ， 其 Tag 会 被 更 新 到 对 应 的 SR 里 
的 基地 址 段 ， 同 时 计算 新 掩 码 ， 同 时 计数 器 +1。 


Bus transaction address 


Hit 
带 计数 器 的 SR 过 滤器 


图 6-158 


对 于 待 比 对 的 地 址 ， 使 用 索引 段 定 位 到 某 SR， 读 
出 其 基地 址 和 掩 码 相 与 ， 会 得 出 一 个 融合 了 掩 码 和 基 
地 址 的 值 ， 这 个 值 内 凡是 被 掩 码 掩蔽 住 〈 掩 码 =1) 的 
位 必 等 于 基地 址 对 应 的 数据 位 ， 凡 是 没 被 掩 码 掩蔽 住 
( 掩 码 =0) 的 位 必 等 于 0， 然 后 将 该 值 与 待 比 对 地 址 
的 Tag 相 比较 ， 只 比较 掩 码 =1 的 那些 位 。 如 果 所 有 掩 
码 =1 上 的 位 相同 ， 则 命中 〔 可 能 命中 ) ; 如 果 至 少 有 
一 位 不 同 ， 则 不 命中 一 定 不 命中 ) 。 当 然 是 否 命中 
还 得 看 一 个 输入 条 件 ， 那 就 是 当前 SR 内 的 计数 器 值 ， 
如 果 计 数 器 是 09 了， 证明 当前 对 应 SR 记录 的 范围 内 没 
有 任何 地 址 被 追踪 并 记录 ， 则 一 定 不 命中 ， 这 也 就 是 
图 中 最 下 方 与 门 的 作用 。 

实际 上 ， 看 似 简单 的 任务 ， 也 还 是 被 分 了 多 个 时 
钟 周期 来 执行 。 图 6-159 为 CSR 过 滤器 追踪 记录 СЕ) 
和 匹配 查询 〈 右 ) 时 的 基本 步骤 和 周期 。 

经 过 这 样 改进 之 后 的 过 滤器 ， 其 面积 比 传统 SR 增 
加 了 大 概 30%， 但 是 仍 比 JETITY 小 得 多 。 


6.9.87 ” 蓝 色 基因 /P 中 的 嗅 探 过 滤器 
IBM 在 其 蓝 色 基因 /超级 计算 机 的 CPU 中 使 用 了 
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第 6 章 “多 处 理 器 微 体系 结构 一 一 多 核心 与 缓存 用 宝生 


тү = = 


count 


= – + – —  . |_ = `, |_ аза. + | 


count 


Stage 1: Capture 
data from CSR 


count 


if the address is in 
the CSR 


- (8) 


{= 


Stage 3:Store new 
CSR values. 


Stage 2: Notify 


Controller 
t 


2[hit|” 


96-159 CSR 过 滤器 追踪 和 查询 的 基本 步骤 周期 


三 种 噢 探 过 滤器 来 过 滤 广播 。 

图 6-160 为 蓝 色 基因 CPU 的 内 部 架构 图 。 其 CPU 
的 L1 缓 存 采 用 Write Through 模 式 透 写 到 L2 缓 存 及 共 
享 的 L3 缓 存 ， 也 就 是 从 LI 直接 穿 透 到 L3， 但 是 L2 中 
也 会 留存 一 份 。 所 以 不 需要 在 LI1 而 只 需要 在 最 后 一 层 
私有 缓存 处 ， 也 就 是 L2 缓 存 控制 器 前 端 放置 过 滤 装 置 
即 可 。 

如 图 6-161 上 图 所 示 ， 每 个 PowerPC 450 CPU 核心 
前 方 都 放置 一 个 L2 缓 存 控制 器 和 一 个 嗅 探 过 滤器 。 所 
有 的 L2 缓 存 控制 器 与 4 个 嗅 探 过 滤器 采用 点 对 点 方式 
广播 CC 请 求 。 

可 以 看 到 ， 缓 存 控制 器 之 间 并 没有 直接 通路 ， 所 
以 核心 之 间 无 法 通过 L2 缓 存 直接 相互 转发 数据 ， 但 是 
由 于 L1 是 写 透 到 L3 的 ， 所 以 L3 里 始终 都 是 最 新 的 数 
据 ， 当 某 个 CPU 收 到 其 他 CPU 的 L2 缓 存 控制 器 发 送 的 
Invalidate 消 息 从 而 作废 了 其 自己 L2 缓 存 内 某 缓存 行 之 
后 ， 后 续 针 对 该 行 的 读 取 可 直接 到 L3 读 取 ， 不 需要 直 

图 6-161 下 图 是 该 嗅 探 过 滤器 的 内 部 架构 图 。 可 
以 看 到 ，4 条 链 路 分 别 对 应 1 个 过 滤 装 置 ， 每 个 过 滤 
装置 内 包含 3 个 不 同 种 类 的 过 滤器 协同 工作 : 一 个 是 
Exclusive 模 式 的 JETTY 过 滤器 、 一 个 Stream Register 过 
滤器 (不 带 计数 器 ) 和 一 个 Range Filter 过 滤器 。4 套 
过 滤 装 置 共 享 同一 个 Stream Register， 可 并 行 查询 。 
每 套装 置 内 部 的 3 个 过 滤器 只 要 有 一 个 判断 出 某 地 址 


可 以 被 滤 掉 ， 则 滤 之 。4 条 链 路 的 广播 如 果 未 被 过 
滤 ， 则 经 过 复 用 器 排队 输出 ， 输 送 给 L1 及 L2 缓 存 控 制 
器 处 理 。 


上 述 的 这 些 过 滤 装 置 的 设计 思路 ， 是 一 笔 宝贵 
的 财富 ， 其 看 似 用 于 嗅 探 过 滤器 ， 其 实 其 核心 思想 
完全 可 以 用 在 各 种 程序 的 搜索 、 匹 配 算法 中 ， 完 全 
可 以 用 软件 来 实现 这 些 过 滤器 。MESIF 方 式 可 以 过 
滤 掉 大 部 分 源头 不 必要 广播 ， 噢 探 过 滤器 可 以 在 目 
的 端 为 后 端 挡 一 阵子 弹 。 当 前 ， 共 享 总 线 结 构 在 高 
性 能 CPU 中 已 经 被 淘汰 了 ， 嗅 探 过 滤器 这 个 角色 却 
依然 存在 ， 但 是 是 以 新 的 各 种 形态 而 存在 。 


6.9.9 ”基于 分 布 式 访 存 网 络 的 缓存 一 致 性 
实现 


前 文中 我 们 以 共享 总 线 为 例 介 绍 了 缓存 一 致 性 实 
现 的 全 貌 。 然 而 ， 在 当前 的 时 代 ， 几 乎 没有 CPU 再 使 
用 共享 总 线 作 为 访 存 网 络 了 ， 而 使 用 的 多 为 多 级 分 布 
式 网 络 ， 比 如 Ring、 分 布 式 Crossbar 等 网 络 结构 。 那 
么 ， 在 这 种 新 式 的 数据 传输 方式 下 ， 前 文中 介绍 过 的 
那些 机 制 ， 还 适用 么 ? 

另外 ， 在 牵扯 到 多 层 缓存 、 多 个 CPU 芯 片 的 更 大 
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图 6-160 ” 蓝 色 基因 CPU 内 部 架构 图 


Processor 0 Processor 1 Processor 2 Processor 3 


L1 snoop 11 snoop 11 snoop 11 snoop 


Stream 
Registers 


enable bypass 


Filter 1 


Stream reg. 
Lookup 


snoop 1 snoop2 ѕпоорз snoop4 


图 6-161 ” 蓝 色 基因 CPU 内 部 的 嗅 探 过 滤器 


的 NUMA 网 络 拓扑 之 下 ， 对 缓存 一 致 性 的 机 制 又 会 有 
什么 影响 和 创新 改进 ? 本 节 就 来 介绍 这 两 个 方面 。 


6.9.9.1 分 布 式 网 络 对 CC 机 制 的 影响 


我 之 前 开 了 个 小 三 轮 蹦 蹦 跑 在 土路 上 ， 现 在 土路 
都 变 成 了 立交 桥 和 平整 大 道 ， 我 还 能 开 三 轮 上 去 么 ? 
可 以 这 么 说 ， 之 前 该 发 送 什么 消息 ， 现 在 也 依然 需要 
发 送 ， 没 有 什么 变化 。 但 是 ， 之 前 严重 依赖 共享 总 线 
的 原生 广播 特点 的 那些 机 制 ， 就 得 跟着 变化 。 比 如 加 
锁 过 程 ， 带 锁 的 指令 Dec_L， 其 底层 实现 严重 依赖 共 
享 总 线 的 排他 性 ， 只 要 我 抢 着 总 线 锁 信 号 了 ， 其 他 人 
绝对 不 可 能 乱入 。 但 是 ， 在 分 布 式 网 络 上 ， 任 何 节点 
在 任意 时 刻 都 可 以 发 起 任何 请 求 ， 因 为 这 些 网 络 是 分 
布 式 多 级 网 络 ， 由 多 个 转发 模块 负责 路 由 转发 。 

既然 如 此 ， 就 有 可 能 多 个 节点 同时 发 起 抢 锁 请 
求 ， 此 时 就 必须 实现 一 种 分 布 式 仲裁 机 制 ， 来 确保 只 
有 一 个 节点 加 锁 成 功 。 具 体 方式 可 以 是 让 某 个 节点 承 
担 集中 仲裁 的 角色 ， 所 有 的 LckRqst (Lock Request, 
加 锁 请 求 ) 消息 发 送 到 它 这 里 ， 按 照 先后 顺序 放 入 到 
FIFO 队 列 中 ， 然 后 位 于 队 首 的 请 求 获 胜 ， 仲 裁 模块 
需要 发 送 给 请 求 方 一 个 LckGntd (Lock Granted， 加 锁 
RH) 消息 。 当 Dec _L 指 令 执 行 完毕 准备 解锁 的 时 候 
(注意 ， 该 解锁 并 非 程序 视角 的 锁 变量 解锁 ， 是 指 底 
层 硬件 锁 ) ， 需 要 发 送 一 个 LckRlsd (Lock Released, 
解锁 ) 消息 给 仲裁 模块 ， 这 样 仲裁 模块 才能 继续 处 理 
排 在 FIFO 中 的 加 锁 请 求 。 

另外 ， 对 于 共享 总 线 时 代 ， 对 总 线 进行 加 锁 到 解 
锁 期 间 ， 该 节点 对 总 线 是 完全 独占 的 ， 无 人 打 断 的 。 
但 是 在 分 布 式 网 络 上 ， 如 果 一 条 加 锁 指 令 也 要 阻塞 掉 
整个 网 络 让 每 个 路 由 器 只 转发 你 的 请 求 的 话 ， 就 不 
太 现实 ， 也 很 不 划算 。 共 享 总 线 每 个 时 刻 只 能 一 个 节 
点 发 、 另 一 个 节点 收 ， 但 是 分 布 式 网 络 中 ， 同 一 时 刻 
会 有 多 个 节点 在 并 行 收发 数据 。 不 能 用 老 思想 走 这 条 
新 路 。 那 么 很 自然 的 ， 加 锁 过 程 并 不 是 要 阻塞 整个 网 
络 ， 而 只 需要 告诉 网 络 中 的 所 有 节点 : 凡是 访问 某 个 
地 址 或 者 地 址 段 的 请 求 ， 都 暂时 阻塞 在 各 位 那里 ， 只 
有 我 能 访问 。 所 以 ， 新 时 代 的 LekRqst 消 息 中 还 必须 
包含 “要 锁定 哪 段 地址 ”的 描述 ， 每 个 节点 上 的 网 络 
控制 器 将 需要 被 锁定 的 地 址 段 放置 到 其 内 部 的 一 个 寄 
存 器 中 ， 后 续 每 个 访 存 请 求 的 目标 地 址 都 会 与 该 寄存 
器 中 的 值 比较 看 看 是 否 落 入 ， 是 则 阻塞 在 队列 里 先 不 
发 送 ， 先 转发 别 的 消息 。 解 锁 消息 也 一 样 ， 你 必须 指 
定 你 要 解锁 哪 段 地 址 ， 这 样 每 个 节点 的 网 络 控制 器 就 
会 从 内 部 的 寄存 器 中 删 掉 对 应 的 地 址 值 了 。 这 种 设计 
可 以 同时 允许 多 个 锁 的 存在 ， 只 要 这 些 锁 锁定 的 是 没 
有 交 又 的 地 址 段 就 可 以 ， 彻 底 释 放 了 并 行 性 ， 所 以 其 
总 体 性 能 远 高 于 共享 总 线 。 

另 一 种 方案 则 是 采用 基于 令 牌 (token) 的 大 众 
共同 裁决 方式 ， 预 先 规定 一 个 顺序 ， 任 何 一 个 节点 发 
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起 的 加 锁 请 求 必须 按照 顺序 获得 所 有 节点 的 同意 ， 才 
算是 成 功 。 比 如 节点 2 要 加 锁 ， 先 把 锁 请 求 发 给 节点 
0， 节 点 0 上 负责 锁 的 硬件 电路 模块 先 查询 其 内 部 是 否 
有 之 前 的 某 节点 的 加 锁 记 录 ， 如 果 有 ， 是 不 是 与 节 
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突 ， 排 在 FIFO 中 等 待 ， 不 发 送 回应 ， 这 样 请 求 方 也 无 
条 件 继续 等 待 下 去 ;如 果 没 有 交合， 那么 节点 0 同意 
该 锁 请 求 ， 向 锁 请 求 数据 包 中 的 bitmap 向 量 中 加 入 一 
个 标记 以 通告 节点 0 同意 该 锁 请 求 了 。 假 设 一 共有 4 个 
节点 ， 那 么 这 个 bitmap 向 量 此 时 就 为 0101， 最 低位 的 
1 表示 节点 0 已 同意 ， 左 数 第 二 位 表示 节点 2， 自 己 当 
然 要 先 同意 自己 的 请 求 了 。 这 个 请 求 被 节点 0 暂 存在 
自己 的 队列 中 ， 然 后 同时 转发 给 节点 1 一 份 。 由 于 所 
有 已 经 成 功 的 加 锁 请 求 均 会 在 每 个 节点 的 网 络 控 制 器 
内 部 的 寄存 器 中 被 记录 着 ， 因 此 既然 节点 0 同意 该 请 
求 ， 就 证 明 当 前 整个 网 络 中 并 没有 其 他 节点 针对 这 段 
地 址 加 了 锁 ， 那 么 节点 1 自然 也 会 同意 ， 将 数据 包 中 
的 bitmap 改 为 0111， 然 后 传递 给 节点 3( 节 点 2 是 请 求 
节点 ) ， 以 次 类 推 。 当 所 有 其 他 节点 都 同意 之 后 ， 最 
后 一 个 节点 将 该 请 求 转发 给 节点 09， 节 点 0 收 到 bitmap 
为 1111 的 锁 请 求 之 后 ， 便 知道 所 有 人 都 同意 了 ， 那 么 
它 会 正式 发 送 一 个 LckGntd 消 息 给 请 求 节点 以 及 其 他 
所 有 节点 ， 以 通告 所 有 节点 该 锁 请 求 以 落实 。 如 果 节 
点 2 和 节点 3 同时 发 起 针对 同一 段 地 址 的 锁 请 求 给 节点 
0， 假 设 节点 3 离 节 点 0 比较 近 ， 先 被 收 到 ， 那 么 假设 
该 锁 请 求 被 节点 0 和 1 同意 了 ， 轮 到 节点 2 审批 时 ， 由 
于 节点 2 也 想 对 该 地 址 段 加 锁 ， 没 成 功 之 前 节点 2 却 收 
到 了 其 他 节点 的 抢 锁 请 求 ， 此 时 如 果 节 点 2 和 节点 3 都 
不 同意 对 方 的 锁 请 求 ， 就 会 死 锁 。 解 决 死 锁 的 办 法 ， 
比如 可 以 用 定 死 的 策略 ， 节 点 ID 小 者 获胜 ， 那 么 节点 
2 就 拒绝 审批 ， 节 点 3 看 到 数据 包 中 的 bitmap 为 1011， 
则 知道 节点 2 一 定 是 有 锁 冲 突 ， 则 暂时 阻塞 该 锁 请 
求 ， 然 后 同意 节点 2 的 锁 请 求 。 基 于 令 牌 的 共同 裁决 
机 制 需要 多 轮 交 互 ， 所 有 节点 参与 ， 所 有 节点 记录 
状态 。 

另外 ，RdPrb、WrtIvld/RdIvldPrb 等 广播 型 消 也 严 
重 依赖 共享 总 线 ， 之 前 只 要 发 一 次 ， 所 有 核心 都 可 以 
收 到 。 在 共享 总 线 时 代 ， 核 心 发 出 该 类 消息 ， 其 他 核 
心 同 一 时 刻 都 会 收听 到 ， 因 为 共享 总 线 是 个 天 然 的 广 
播 域 。 而 在 分 布 式 网 络 时 代 ， 每 个 核心 发 出 的 消息 只 
能 交 给 与 之 连接 的 那个 网 络 路 由 器 。 所 以 ， 要 么 改 成 
由 请 求 节点 分 别 发 出 多 个 带 有 不 同 目标 地 址 的 RdPrb/ 
WrtIvld/RdIvldPrb 请 求 ， 要 么 发 出 一 份 带 有 目标 地 址 
为 广播 地 址 的 请 求 ， 路 由 器 收 到 该 广播 地 址 请 求 ， 自 
动向 所 有 端口 转发 ， 后 续 的 路 由 器 也 自动 转发 ， 但 是 
一 旦 网 络 有 环 路 则 会 形成 广播 风暴 。 杜 绝 广 播 风 暴 需 
要 对 网 络 进行 特殊 设计 ， 这 就 增加 了 复杂 性 。 所 以 一 
般 都 采用 第 一 种 方式 。 但 是 ， 随 着 网 络 节点 数量 的 增 
加 ， 比 如 几 十 个 核心 被 集成 在 一 片 CPU 内 并 互联 ， 多 


可 大 话 计算 机 一 一 计算 机 系统 底层 架构 原理 极限 剖析 


个 CPU 之 间 再 用 外 层 网 络 互联 ， 这 样 就 会 有 大 量 的 广 
播 流量 ， 影 响 网 络 性 能 。 对 此 ， 有 一 些 嗅 探 过 滤 机 
制 依然 在 分 布 式 网 络 时 代 发 挥 着 重要 作用 ， 后 文 再 
详细 介绍 。 但 是 由 于 分 布 式 网 络 的 无 阻塞 性 质 ， 同 
一 时 刻 会 有 多 个 目标 网 络 地 址 不 同 的 RdPrb/WrtIvld/ 
RdIvldPrb 消 息 在 网 络 上 流动 着 。 

与 共享 总 线 不 同 的 是 ， 总 线 一 般 直 接 使 用 不 同 的 
导线 来 分 别传 递 控制 位 、 地 址 位 和 数据 位 。 而 对 于 一 
些 分 布 式 网 络 ， 由 于 其 采用 串 行 传输 机 制 ， 控 制 位 、 
地 址 位 和 数据 位 要 形成 一 串 位 流 ， 也 就 是 一 个 数据 
包 ， 在 网 络 上 流动 。 这 个 数据 包 会 具有 一 定 的 格式 。 

值得 一 提 的 是 ， 上 述 这 些 复杂 的 机 制 ， 全 部 由 
CA 以 及 网 络 控制 器 来 处 理 ， 负 责 生 成 、 发 送 和 接收 
对 应 的 消息 以 及 做 出 相应 的 动作 以 及 状态 记录 。 核 
心 、 缓 存 控制 器 根本 不 需要 知道 这 些 细节 ， 只 需要 发 
出 访 存 请 求 就 可 以 了 。 
6.9.9.2 ”多 级 缓存 和 多 CPU 对 CC 机 制 的 影响 


目前 多 数 处 理 器 芯片 内 部 都 采用 了 多 层 缓存 ， 至 
少 有 两 层 ， 比 如 L1 和 L2，L2 缓 存 是 多 核心 共享 的 ; 
也 有 三 层 的 ， 此 时 Ll 和 IL2 缓 存 一 般 为 各 个 核心 独 享 ， 
L38246 (通常 是 LLC》 则 为 共享 的 。CPU 片 外 一 般 是 
没有 缓存 的 ， 直 接 就 到 DDR SDRAM 控 制 器 了 。 

可 以 很 明确 地 讲 ， 目 前 的 主流 多 核心 CPU， 其 
L3/LLC 缓 存 都 是 分 布 式 的 而 不 是 集中 式 的 ， 同 时 
也 是 共享 的 ， 也 就 是 所 谓 的 分 布 式 共享 存储 系统 
(Distributed Shared Memory，DSM) 。 其 原因 是 随 
着 核心 数量 的 增加 ， 比 如 15 核 、18 核 甚至 32 核 ， 它 们 
会 竞争 访问 同一 个 L3 缓 存 控制 器 入 口 ， 于 是 瓶颈 凸 
显 ， 这 就 必须 将 L3 缓 存 层 拆 分 成 多 个 分 片 ， 每 个 核心 
处 放置 一 个 。 所 有 核心 都 可 以 同时 访问 所 有 分 片 ， 只 
不 过 对 于 放 在 本 地 核心 分 片 中 的 数据 ， 其 他 核心 来 访 
问 时 走 的 路 就 要 长 很 多 ， 需 要 经 过 某 些 网 络 来 访问 ， 
比如 Ring、Crossbar 等 ， 即 便 是 这 样 ， 还 是 大 大 增加 
了 并 行 性 。 

既然 LLC 成 了 分 布 式 的 〈 分 片 ) ， 那 么 数据 怎么 
分 布 ? 是 挨 着 来 ， 你 满 了 后 续 再 有 就 放 我 这 ， 我 满 了 
再 有 就 放 他 那 ? 还 是 按照 Round Robin 方 式 ， 你 一 个 
我 一 个 他 一 个 ， 循 环 地 放 ? 或 是 通过 散 列 得 出 一 个 特 
征 码 ， 然 后 用 特征 码 来 索引 分 片 ， 从 而 做 到 随机 平均 
选择 一 片 来 存放 ? 再 或 是 根据 地 址 空间 的 范围 ， 直 接 
除 以 分 片 数 量 ， 然 后 各 管 各 的 地 址 片区 ? 抑或 是 每 个 
CPU 干脆 就 地 存 取 ， 读 取 或 者 存储 任何 地 址 的 数据 都 
直接 访问 离 自己 最 近 的 LLC? 最 后 一 种 显然 不 合适 ， 
因为 其 会 引 来 额外 的 缓存 不 一 致 ， 因 为 任何 核心 都 可 
以 将 任何 地 址 存储 在 本 地 L3 缓 在 中 ， 势 必 会 导致 多 个 
核心 的 LLC 分 片 同 时 存储 同一 个 地 址 的 数据 。 另 外 就 
近 存 取 的 话 ， 就 需要 记录 一 张大 表 来 追踪 到 底 谁 放 在 
哪 ， 每 次 访问 则 必须 查 表 ， 太 慢 。 


现实 中 ， 一 般 采 用 散 列 或 者 按照 缓存 行为 粒度 打 
散 轮流 放置 在 多 个 L3 分 片 中 ， 这 样 就 不 会 出 现 一 致 性 
问题 ， 就 好 像 L3 依 然 是 集中 存储 一 样 。 但 是 这 样 做 会 
导致 一 个 问题 ， 就 是 本 地 访问 的 某 地 址 数据 可 能 在 其 
他 核心 的 L3 缓 存 分 片 中 ， 也 可 能 在 自己 眼前 的 L3 缓 存 
分 片 中 ， 完 全 平均 而 且 不 能 被 程序 控制 (为 进程 分 配 
对 应 的 物理 地 址 段落 入 某 RAM 分 片 是 可 以 控制 的 ， 
但 是 硬件 散 列 结果 是 不 能 选择 和 控制 的 ) 。 本 书 前 文 
中 介绍 过 NUMA， 当 时 是 以 RAM 主 存 的 分 布 式 存储 
作为 例子 的 ， 而 LLC/L3 缓 存 其 实在 实际 设计 中 也 是 
NUMA 的 。 

这 里 比较 容易 理解 错误 。 分 布 式 LLC 架 构 下 ， 
虽然 看 上 去 每 个 核心 “拥有 ”L1、L2、L3/LLC 缓 
存 ， 但 是 只 有 L1 和 L2 缓 存 是 私有 的 ，LLC 是 共享 
的 。L2 缓 存 控 制 器 依然 会 请 求 本 地 的 LLC 分 片 控 
制 器 ， 但 是 如 果 访 存 地 址 没有 落 入 该 核心 跟前 的 
LLC， 那 么 本 地 LLC 分 片 控制 器 会 跨 Fabric 转 发 该 请 
求 到 对 应 的 LLC 分 片 ( 位 于 其 他 核心 跟前 ) ， 读 写 
都 如 此 。 或 者 L2 缓 存 控制 器 上 配 有 路 由 表 ， 直 接 将 
请 求 发 送 给 目标 LLC 分 片 控制 器 ， 一 般 Exclusive 模 
式 的 缓存 可 以 这 样 设计 。 如 果 核心 0 的 工 1 缓存 中 某 
行 在 核心 3 的 LLC 分 片 中 存在 副本 ， 那 么 其 他 核心 
跟前 的 LLC 分 片 就 不 可 能 存在 该 行 的 副本 。 


在 每 个 CPU 芯片 内 ， 每 个 核心 都 拥有 一 个 CA， 
其 发 出 的 广播 消息 必须 传达 到 所 有 的 核心 ， 包 括 本 片 
内 的 和 其 他 片 内 的 核心 ， 这 意味 着 一 个 探 询 广播 ， 比 
如 WrtIvld、RdIvldPrb、RdPrb 等 消息 ， 不 但 要 复制 多 
份 走 多 条 路 到 多 个 目的 ， 而 且 要 跋山涉水 ， 穿 越 片 内 
核 外 访 存 网 络 到 达 片 外 网 络 的 关口 ， 比 如 QPI 控 制 ， 
然后 再 经 历 片 外 网 络 到 达 对 方 QPI 关 口 ， 再 从 这 里 入 
关 到 达 对 方 的 片 内 访 存 网 络 ， 最 后 抵达 每 个 核心 的 
CA 进入 队列 等 待 处 理 。 

网 络 上 的 流量 太 大 了 ， 只 要 能 滤 掉 一 部 分 不 必要 
的 流量 ， 就 可 以 大 幅 提升 整体 性 能 。 


6.9.9.3 ”即便 无 锁 也 要 保证 一 致 


前 文中 我 们 假定 运行 在 多 个 不 同 核心 上 的 程序 在 
访问 共享 变量 之 前 必须 先 加 锁 来 保证 从 源头 上 串 行 化 
地 访问 共享 变量 。 但 是 ， 假 设 ， 两 个 不 同 核心 上 的 程 
序 由 于 种 种 原因 忘记 了 加 锁 ， 然 后 同时 对 某 个 地 址 发 
起 某 次 Stor 操 作 ， 核 心 1 写 入 数值 a， 核 心 2 写 入 数值 
b， 而 且 这 两 个 核心 各 自 将 a 和 b 放 入 自己 的 L1 缓 存 ， 
此 时 各 自 的 CA 都 会 发 出 Invalidate 广 播 。 ВА, И 
个 核心 必须 做 个 了 断 ， 也 就 是 有 一 边 必 须 作废 ， 而 绝 
不 可 出 现 同 一 个 地 址 拥有 两 个 不 同 副本 在 两 个 不 同 组 
存 中 的 情况 ， 至 于 此 时 如 何 仲裁 ， 视 设计 而 异 。 也 就 


是 说 ， 缓 存 一 致 性 并 不 能 因为 上 层 程序 不 加 锁 而 自己 
也 破 饶 子 破 摔 ， 给 程序 看 到 不 一 致 的 数据 。 


6.9.10 分布 式 网 络 下 的 嗅 探 过 滤 机 制 


MESIF 协 议 本 身 是 可 以 从 源头 过 滤 一 些 流量 的 ， 
比如 读 / 写 访问 处 于 E 或 M 态 的 缓存 行 ， 以 及 读 取 处 于 
Ss 或 F 态 的 缓存 行 不 需要 发 出 任何 消息 。 但 是 写 处 于 
S/F/I 态 的 缓存 行 就 必须 发 出 WrtIvld 或 者 RdIvldPrb 消 
息 给 所 有 其 他 核心 ， 读 处 于 I 态 的 缓存 行 也 必须 发 出 
RdPrb 消 息 给 所 有 其 他 核心 。 这 些 没 有 被 MESIF 从 源 
头 滤 掉 的 消息 ， 能 否 再 过 滤 一 次 呢 ? 于 是 我 们 就 会 
想 : 如 果 能 够 让 发 送 方 提前 知道 本 次 访问 的 缓存 行 可 
能 只 在 某 个 / 些 核心 的 缓存 内 有 副本 ， 或 者 某 些 核心 内 
没有 副本 ， 那 就 可 以 避免 广播 ， 而 使 用 点 对 点 单 播 ， 
只 通知 那些 可 能 持 有 副本 的 核心 的 CA， 从 而 省 掉 大 
量 的 网 络 流量 ， 提 升 性 能 。 

那么 之 前 用 在 共享 总 线 架构 下 的 那些 嗅 探 过 滤 
器 ， 还 管用 么 ? 不 得 不 说 ，6.9.8 节 中 介绍 的 嗅 探 过 滤 
器 无 一 例外 都 是 在 目的 端 进行 过 滤 的 ， 它 保护 的 只 是 
位 于 其 后 端的 缓存 不 受过 多 不 必要 的 查询 ， 并 不 能 阻 
止 发 送 方 将 消息 发 过 来 ， 也 没有 必要 阻止 ， 因 为 大 家 
都 挂 接 在 同一 个 共享 总 线 上 ， 你 这 没有 某 个 缓存 行 ， 
并 不 表示 其 他 核心 没有 ， 其 他 核心 有 没有 你 是 不 知道 
的 ， 那 么 你 就 没有 理由 让 发 送 方 不 发 送 消息 。 另 外 ， 
共享 总 线 是 排他 性 的 ， 发 一 次 所 有 人 都 收 到 ， 你 不 收 
也 得 收 ， 你 不 收 别人 收 ， 总 线 还 是 要 费 电 ， 那 就 不 用 
过 于 担忧 是 不 是 我 不 收 就 会 更 节约 电 。 但 是 对 于 分 布 
式 网 络 ， 同 一 时 刻 支持 多 个 数据 包 传递 ， 少 一 个 人 接 
收 ， 就 节约 下 来 一 部 分 相应 的 网 络 流量 资源 ， 所 以 必 
须 从 源头 上 来 过 滤 ， 而 不 是 在 终点 才 过 滤 。 


6.9.10.1 在 LLC 中 增设 bitmap 向 量 过 滤 片 内 广播 


所 以 ， 如 何 让 本 核心 的 CA 只 根据 本 地 的 某 些 信 
息 就 可 以 获知 某 个 缓存 行 在 其 他 核心 缓存 中 的 状态 ， 
就 成 为 了 实现 源 过 滤 的 关键 思路 突破 点 。 

所 有 的 核心 载 入 缓存 行 时 ， 都 必须 经 过 LLC。L1 
缓存 不 命中 则 找 L2 缓 存 ，L2 缓 存 不 命中 找 L3 缓 存 ， 
数据 从 MC 后 方 的 RAM 先 进入 LLC， 再 发 送 给 L2 缓 
存 ， 再 到 L1 缓 存 。LLC 就 是 所 有 数据 进出 的 关口 ， 那 
么 只 要 在 这 里 记录 本 CPU 内 所 有 核心 曾经 针对 本 LLC 
都 做 了 什么 ， 也 就 是 访问 过 的 缓存 行 及 对 应 的 状态 ， 
就 可 实现 源 过 滤 。 

所 以 ， 在 每 个 LLC 缓 存 行 中 增加 一 个 bitmap 向 
量 ， 使 用 n 位 来 对 应 本 CPU 内 的 全 部 "个 核心 。 每 当 
LLC 控 制 器 从 RAM 中 为 某 个 核心 载 入 某 缓存 行 之 后 ， 
就 顺便 将 该 缓存 行 对 应 的 bitmap 向 量 中 对 应 该 核心 的 
位 置 1， 表 示 当 前 缓存 行 在 该 核心 内 部 私有 缓存 中 存 
在 副本 。 

对 于 Inclusive 设 计 模式 的 缓存 ，L2 缓 存 包含 所 有 
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L1 缓 存 的 内 容 ，L3 缓 存 包 含 所 有 L1 和 L2 的 内 容 。 任 
何 一 个 核心 的 CA 收 到 该 核心 的 更 改 操作 ， 首 先 依次 
查询 本 地 L1 缓 存 ， 没 命中 则 查询 L2 缓 存 ， 再 没命 中 
则 查 L3 缓 存 〈 当 然 根据 目标 地 址 ， 其 查询 的 可 能 并 非 
挂 接 在 本 核心 处 的 L3 分 片 ， 可 能 是 网 络 上 其 他 L3 分 
片 ) 。 如 果 命 中 了 ， 则 查 出 该 行 的 MESIF 状 态 ， 如 果 
是 M 态 ， 则 证 明 本 CPU 拥有 最 新 的 数据 ， 其 他 CPU 都 
没有 缓存 这 份 数据 ， 直 接 改 。 由 于 是 Inclusive 模 式 ， 
因此 必须 把 三 级 缓存 里 所 有 该 行 的 副本 都 更 改 ， 如 果 
只 在 LLC 命 中 ， 那 么 改 完 LLC 之 后 还 要 将 该 行 复制 到 
其 他 两 级 缓存 。 这 就 是 Inclusive 模 式 的 劣势 之 一 。 

如 果 核 心 对 某 个 缓存 行 的 更 改 命 中 了 某 级 缓存 ， 
且 该 行 状 态 为 S 或 F 态 ， 则 证 明 本 CPU 内 部 的 其 他 核心 
或 者 其 他 CPU 内 部 的 某 个 / 些 核心 同时 持 有 该 行 ， 那 
么 除了 更 改 该 级 及 其 下 一 级 缓存 中 的 该 行 之 外 ， 还 要 
复制 该 行 到 其 上 面 的 所 有 级 缓存 。 再 根据 LLC 中 该 行 
的 bitmap 判 断 本 片 内 有 哪些 核心 持 有 该 行 ， 然 后 定点 
推送 WrtIvld 消 息 。 同 时 ， 其 他 CPU 片 内 某 个 / 些 核心 
也 可 能 持 有 该 行 缓存 ， 但 是 本 地 LLC 由 于 容量 要 保持 
精简 ， 就 不 存放 用 于 追踪 其 他 CPU 芯片 内 的 缓存 信息 
了 ， 单 独 找 个 地 方 来 放置 ， 后 文 再 介绍 。 所 以 ， 本 地 
CA 无 法 判断 出 其 他 持 有 该 缓存 行 的 具体 核心 是 谁 以 
及 有 和 多少， 只 能 盲 性 地 将 WrtIvld 广 播 委托 外 部 网 络 控 
制 器 (比如 QPI 控 制 器 发 送 给 所 有 CPU。 

图 6-162 为 基于 Inclusive 模 式 ， 利 用 LLC 中 的 
bitmap 实 现 源 过 滤 场景 下 的 各 种 处 理 流程 。 下 文中 还 
有 对 该 过 程 的 更 加 详细 的 图 文 介 绍 。 

Inclusive 模 式 下 ， 如 果 某 个 核心 从 LLC 中 将 数据 
复制 到 上 一 级 缓存 之 后 ， 又 将 其 换 出 了 ， 那 么 此 时 
LLC 是 不 知道 的 ，Inclusive 只 保证 上 一 级 有 的 下 一 级 
一 定 有 ， 但 是 不 保证 上 一 级 没有 的 下 一 级 也 得 跟着 没 
有 ， 那 就 没有 意义 了 。 那 么 LLC 的 bitmap 中 为 1， 也 就 
并 不 能 保证 对 应 核心 当前 一 定 持 有 该 行 数据 ， 只 能 表 
明 对 应 核心 曾经 持 有 了 该 行 数据 。 所 以 ， 为 了 保证 更 
加 精准 的 过 滤 ， 每 当 L2 缓 存 换 出 某 行 数据 时 ， 一 定 证 
明 L1 中 也 没有 该 行 数据 了 ， 此 时 L2 控 制 器 要 通知 LLC 
控制 器 针对 bitmap 做 对 应 的 变更 。 每 当 L1 缓 存 换 出 某 
行 数据 时 ，L2 中 依然 持 有 它 ， 则 LLC 中 的 bitmap 就 不 
需要 变更 。AMD 某 代 CPU 就 采用 了 这 种 精确 过 滤 ， 不 
过 有 些 CPU 不 保证 精确 过 滤 ，bitmap 为 一 次 性 使 用 ， 
当 全 为 1 时 就 失效 了 ， 直 到 该 行 直接 Invalidate 后 ， 下 
次 再 访问 时 从 头 开始 记录 。 

这 种 设计 的 另外 一 个 好 处 则 是 ， 当 收 到 WrtIvld 的 
核心 执行 作废 请 求 时 ， 其 原本 需要 查询 全 部 的 三 个 级 
别 的 缓存 来 确定 是 否 命 中 ， 而 有 了 这 个 bitmap 之 后 ， 
接收 方 CA 只 需要 根据 接收 到 的 消息 中 标明 要 作废 的 
缓存 行 地 址 定位 到 某 个 LLC 分 片 ( 注 意 ， 该 LLC 分 片 
并 不 一 定 是 与 该 核心 临近 的 那个 ) ， 然 后 查询 该 LLC 
分 片 中 该 行 对 应 的 bitmap， 就 可 以 精确 地 知道 具体 哪 
个 核心 持 有 该 缓存 。 如 果 bitmap 标 明 恰好 是 自己 〈 该 
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核心 发 出 的 操作 命中 在 L1 命中 在 L2 命中 在 某 LLC 分 片 


读 ,目标 行为 M 志 Е 无 动作 无 动作 

号 ,目标 行为 M 态 。 同时 写 入 三 个 副本 同时 写 入 L2 和 L3， 并 拷贝 该 行 到 L1 写 入 LLC ,同时 拷贝 该 行 到 L2 和 L1 

Ж, ВОЛЕ 无 动作 无 动作 无 动作 

写 , 目标 行为 E 态 — 同时 写 入 三 个 副本 并 变 为 M 同时 写 入 L2 和 L3 ， 变 为 M ,并 拷贝 该 行 到 LI1 SAUC, 变 为 M ,同时 拷贝 该 行 到 L2 和 L1 

B, 目标 行为 S/F 志 МНЕ 无 动作 无 动作 

写 ,目标 行为 S/F 态 。 同时 写 入 三 个 副本 并 变 为 M , 检查 LLC 该 行 的 同时 写 入 L2 和 L3 并 变 为 M , 并 拷贝 该 行 到 L1。 然 后 。 写 入 LLC ， 变 为 M， 同 时 拷贝 该 行 到 L1 和 L2 , 同时 检 
bitmap 查 出 哪个 心 持 有 该 行 副本 ELCA bitmap HENEU 心 持 有 该 行 副本 ， 


т n 向 对 应 核心 检查 | 


广播 消息 ， 作 刻 其 他 CPU 内 部 核心 中 的 缓存 副本 


读 , 目标 行为 ! 志 。 不 命中 L1 则 去 L2 查 询 


5, ВБ 不 命中 L1 则 去 L2 喜 询 


图 6-162 


CA 所 在 的 核心 ) 持 有 ， 该 CA 再 去 自己 的 LIIL2 中 查询 
并 作废 对 应 条 目 ， 同 时 更 新 bitmap; 如 果 bitmap 显 示 
本 核心 不 持 有 该 行 ， 则 直接 返回 IvldRspN 消 息 给 发 送 
方 ， 避 免 了 去 查询 LI/L2 缓 存 的 操作 。 所 以 这 个 bitmap 
同时 起 到 了 源 过 滤 和 目的 端 过 滤 的 作用 。 

图 6-163 为 一 个 4 核心 CPU 缓存 一 致 性 示意 图 ， 其 
使 用 了 MESI 协 议 ( 没 有 F 状 态 ) ，4 种 状态 可 用 2 位 表 
示 ， 另 外 在 LLC 中 的 每 一 行使 用 额外 的 4 位 向 量 (对 
应 4 个 核心 ) 来 过 滤 ， 缓 存 之 间 为 Inclusive 模 式 ， 其 
LLC 包 含 多 个 分 片 (Bank) ， 每 个 Bank 位 于 一 个 核 
心 之 前 ， 使 用 按照 地 址 静态 分 段 的 方式 分 割 。 图 中 给 
出 了 A 和 B 两 个 缓存 行 在 不 同位 置 的 状态 ， 其 中 Block 
就 是 指 缓存 行 ， 有 些 人 习惯 叫 Block， 有 些 人 习惯 叫 
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不 命中 L2 则 再 去 L3 查 询 


и n 
Wrtivld 消 息 ， 对 方 收 到 后 依次 。 向 对 应 核心 的 CA 发 出 Wrtivld 消 息 , 千夫 
豆 询 自己 的 LLC/L2/L1 缓 存 进行 作 质 处 理 ， 如 果 为 多 


EE, MFAS 
CPU 系 统 ， 则 CA 同时 向 片 外 网 络 控制 器 发 出 Wrtlvid CPU 系统 ， 则 CA 同时 向 片 外 网 络 控制 器 发 出 Wrtlvld 
广播 消息 ,作废 其 他 CPU 内 部 核心 中 的 缓存 副本 的 缓存 副本 


不 命中 L2 则 再 去 L3 查 询 


广播 消息 ， 作废 其 他 CPU 内 部 核心 中 


不 命中 L3 证 明 本 CPU 片 内 所 有 缓存 都 未 持 有 该 行 。 
如 果 为 多 CPU 系 统 ， 则 CA 向 片 外 ; 
询 消息 或 许 数 据 ; 如 果 是 单 


БЕТИ КАМЧ ЕДЕТЕ. 
入 三 级 缓存 并 变 为 E 


不 命中 L3 证 明 本 CPU 片 内 所 有 缓存 都 未 持 有 该 行 ， 
如 果 为 多 CPU 系 统 , НЕ 
RdividPrb 探 询 消息 获取 数据 ; 如 果 是 单 CPU 系统 ， 
УСАМЉЕНИ КАМЕ, 数据 获 
取 后 十 入 三 级 缓存 并 变 为 | 


基于 Inclusive 模 式 ， 利 用 LLC 中 的 bitmap 实 现 源 过 滤 场 景 下 的 各 种 处 理 流程 


Cache Line。 

可 以 看 到 ， 上 述 机 制 还 是 比较 复杂 的 ， 为 了 实现 
广播 过 滤 ， 增 加 了 复杂 性 。 那 会 不 会 反 过 来 又 压制 了 
性 能 ? 这 是 很 有 可 能 的 ， 假 设 核心 数量 比较 少 ， 比 如 
4 核心 场景 ， 某 个 核心 写 入 操作 ， 命 中 L1 缓 存 ， 产 生 
了 一 个 WrtIvld 消 息 ， 此 时 你 是 选择 直接 广播 给 其 他 3 
个 核心 的 CA 各 自 处 理 呢 ， 还 是 选择 先 查看 本 地 LLC 
中 的 bitmap， 过 滤 之 后 ， 发 现 其 中 2 个 核心 并 未 持 有 
该 行 ， 所 以 只 发 出 一 条 消息 给 持 有 该 行 的 核心 呢 ? 假 
设 网 络 很 闲 ， 基 本 没有 什么 太 多 流量 ， 此 时 就 算 不 过 
滤 直 接 发 给 所 有 人 ， 所 有 人 并 行 查询 各 自 缓存 ， 也 并 
不 会 降低 太 多 性 能 ， 网 络 不 就 是 走 流量 的 么 ， 不 用 也 
是 浪费 。 倒 是 先 去 访问 本 地 LLC 拿 到 bitmap， 这 个 延 


—2bits -64bits -512 bits 


Block in shared cache 


tracking 


bits state = block data ' Bank О 
-1bt -2bits -64bits -512bits ч 


рег core sn- 一 -一 =- 


private © private GD private © private ©] 
Interconnection network | 
Вапк1 Bank 2 Bank3 1 
a: [ogm ' 
B: f 
' 
Shared cache 
(banked by block address) 


State — Meaning 
M (Modified) — Read/write permission 
S (Shared) — Read-only permission 
I (Invalid) — No permissions 


图 6-163 


片 内 Inclusive 模 式 CC 全 局 示意 图 


迟 可 能 要 高 不 少 ， 相 比 节省 的 广播 而 言 ， 反 而 可 能 压 
制 性 能 。 相 反 ， 如 果 核 心 数量 较 多 ， 比 如 16 核 心 ， 加 
之 网 络 流量 已 经 比较 大 ， 此 时 ， 前 期 花 点 时 间 过 滤 一 
下 ， 后 期 便 会 得 到 更 好 的 性 能 了 。 有 具体 选择 哪 种 策 
略 ， 就 看 各 个 CPU 厂商 综合 评判 之 后 的 决断 了 。 

如 果 各 级 缓存 之 间 是 Exclusive 模 式 ，LLC 中 有 
的 ，L1 和 L2 中 一 定 没有 ， 所 以 只 能 将 追踪 bitmap 存 
储 到 L1、L2 和 LLC 缓 存 的 每 个 缓存 行 中 ， 命 中 在 哪 
一 级 缓存 ， 就 将 对 应 行 的 bitmap 读 出 并 判断 该 向 哪 
个 节点 发 送 消息 。 可 以 看 到 ， 这 个 过 程 相 比 Inclusive 
模式 要 快 ， 因 为 Inclusive 模 式 下 每 次 都 要 从 LLC 读 出 
bitmap， 访 问 LLC 的 速度 相 比 L1、L2 缓 存 来 讲 是 比 
较 慢 的 。 但 是 ， 其 劣势 是 当 CA 接 收 到 其 他 核心 CA 发 
来 的 WrtIvld 等 消息 时 ， 不 得 不 去 再 次 查询 L1 和 L2 缓 
存 以 决定 是 否 命中 ， 也 就 是 说 Exclusive 模 式 下 追踪 
bitmap 只 能 起 到 源 过 滤 〈 而 且 是 比 Inclusive 模 式 更 快 
速 的 源 过 滤 ) 作用 ， 无 法 起 到 目的 端 过 滤 的 效果 。 

图 6-164 为 AMD 某 代 CPU 缓 存 中 的 元 数据 示意 
图 ， 其 采用 了 Exclusive 模 式 。 每 一 条 元 数据 记录 占用 
4 字 节 ， 其 中 包含 了 Tag、State (MESIF ) 以 及 bitmap 
向 量 〈 图 中 的 Owner 字 段 ) 。 

在 缓存 一 致 性 研究 领域 ， 人 们 把 这 种 用 于 描述 哪 
个 缓存 行 在 哪个 核心 的 缓存 中 可 能 存在 的 数据 结构 称 
为 目录 (directory) 。 上 述 的 追踪 bitmap 本 质 上 也 是 
一 种 目录 方式 ， 只 不 过 非常 简单 。 
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图 6-166 三 种 环 路 的 探 询 方式 示意 图 
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6.9.10.2 ”Ring 网 络 的 三 种 嗅 探 方式 


图 6-165 为 一 个 环 路 的 基本 构造 的 示意 图 。 左 侧 
所 示 为 一 个 承载 4 核心 的 Ring 网 络 ， 可 以 看 到 它 其 实 
有 多 个 独立 的 Ring 组 成 ， 分 别 承载 不 同 的 流量 ， 这 样 
做 是 为 了 增加 并 行 度 ， 提 升 性 能 。 

中 间 所 示 为 16 个 核心 组 成 的 环 ， 右 侧 为 每 个 节点 
内 部 框架 的 示意 图 。 基 本 部 件 是 FIFO 寄 存 器 、 环 路 接 
口 控制 器 ， 接 口 控制 器 根据 地 址 译 码 ， 如 果 收 到 的 消 
息 不 是 给 自己 的 ， 那 么 下 一 个 时 钟 周期 就 将 消息 转发 
出 去 ， 这 会 使 消息 产生 一 个 时 钟 周期 的 时 延 。 如 果 是 
广播 以 及 组 播 消息 且 自 己 不 是 最 后 一 跳 ， 则 节点 在 收 
入 消息 处 理 的 同时 转发 给 下 一 跳 。 环 路 接口 控制 器 和 
FIFO 队 列 的 详细 示意 图 可 见 图 6-48。 

与 共享 总 线 一 样 ， 环 路 也 有 多 种 优化 效率 的 设 
计 。 如 图 6-166 所 示 ，Lazy 模 式 就 是 在 消息 被 一 个 节 
点 收 到 之 后 ， 内 部 探寻 ， 如 果 没 有 命中 ， 则 继续 向 前 
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转发 ，Eager 模 式 则 是 节点 在 收 到 消息 之 后 就 立即 转 
发 出 去 ， 同 时 后 台 做 异步 查询 ， 直 到 环 路 上 所 有 节点 
都 收 到 且 转 发 一 次 之 后 回 到 请 求 节点 ， 这 种 方式 浪费 
了 链 路 带宽 ， 却 能 够 提升 探 询 速度 ， 与 广播 无 异 。 这 
两 种 方式 都 是 没有 过 滤 目 录 的 ， 也 就 是 说 每 个 探 询 消 
息 必须 所 有 人 都 轮 一 圈 ， 免 不 了 ， 除 非 某 个 节点 判断 
出 最 新 数据 就 在 我 这 ， 没 必要 往 下 转发 了 《〈 比 如 Lazy 
模式 ) 。 第 三 种 方法 称 为 “Oracle” СНО), ZA 
以 先知 ， 当 然 是 因为 每 个 节点 都 实现 了 精确 的 过 滤 目 
录 ， 可 以 点 对 点 推送 消息 。 


6.9.10.3 增设 远程 目录 过 滤 片 外 广播 


上 文中 介绍 了 单 CPU 芯片 内 部 在 Inclusive 的 LLC 
缓存 行 或 者 Exclusive 的 所 有 缓存 行 中 存放 过 滤 bitmap 
目录 ， 以 实现 片 内 广播 过 滤 。 该 bitmap 又 被 称 为 目 
录 ， 由 于 其 只 能 追踪 本 CPU 片 内 的 缓存 状况 ， 所 以 暂 
且 称 之 为 本 地 目录 。 同 时 也 提 到 了 ， 由 于 不 知道 其 他 
CPU 中 是 否 缓存 了 该 行 ， 所 以 一 些 作废 消息 不 得 不 向 
片 外 所 有 核心 广播 。 如 果 能 够 存在 某 种 专门 用 于 追踪 
其 他 CPU 片 内 可 能 缓存 有 哪些 行 的 bitmap 的 话 ， 这 个 
bitmap 就 可 暂且 称 之 为 远程 目录 ， 那 样 就 可 以 避免 广 
播 而 使 用 单 播 ， 节 省 网 络 流量 ， 提 升 性 能 。 下 面 我 
们 用 一 些 流程 图 来 帮助 大 家 梳理 清楚 本 地 目录 和 远 
程 目录 在 访 存 操作 时 的 过 滤 作 用 全 景 。 本 系统 采用 
Inclusive 模 式 的 缓存 设计 ， 直 接 在 LLC 缓 存 行 中 存储 
本 地 目录 bitmap。 

图 6-167 为 一 个 在 没有 远程 过 滤 目 录 情况 下 的 CC 
案例 示意 图 。Co 核 心 发 出 一 个 Stor 请 求 ，Co 的 CA 通 
过 查询 本 地 目录 成 功 地 发 现 C? 核 心 的 私有 缓存 中 不 会 
命中 ， 那 就 不 需要 向 其 发 送 WrtIvld 消 息 了 。 但 是 Co 


的 CA 无 法 判断 右 侧 的 CPU 内 都 有 哪些 缓存 行 ， 所 以 
发 送 了 个 目标 地 址 为 广播 地 址 的 WrtIvld 消 息 到 QPI 控 
制 器 。 右 侧 CPU 的 QPI 控 制 器 收 到 该 广播 ， 便 会 生成 
四 条 独立 的 消息 分 别 发 给 它 的 4 个 核心 ， 后 者 各 自 查 
询 本 地 目录 (假设 该 访 存 访问 的 地 址 会 被 分 配 到 C7 核 
心 的 L3 缓 存 分 片 ) 以 判断 自己 的 私有 缓存 里 是 否 有 
该 行 。 

如 图 6-168 所 示 ，Cs 和 C6 通过 读 取 本 地 目录 bitmap 
后 发 现 自己 对 应 的 位 为 1， 表 明 自 己 的 私有 缓存 内 
命中 该 行 ， 于 是 去 将 对 应 行 作废 处 理 ， 然 后 返回 
IvldRspF 消 息 ; Cs 和 C; 通 过 bitmap 发 现 自己 核心 里 并 
没有 缓存 该 地 址 ， 所 以 直接 返回 IvldRspN 消 息 。 同 
时 ，Co 还 从 其 他 CPU 收 到 了 Cs 核心 返回 的 IvldRspF 消 
息 。 然 后 ， 右 侧 CPU 的 本 地 过 滤 目 录 需 要 被 更 新 ， 
为 对 应 的 行 已 经 被 作废 ， 不 存在 于 该 CPU 内 了 。 那 
么 ， 该 由 哪个 CA 来 更 新 目录 呢 ? 这 是 个 问题 ， 如 果 
像 图 示 中 这 样 由 这 两 个 CA 都 去 更 新 一 遍 ， 那 会 做 无 
用 功 ， 降 低 性 能 ， 而 且 还 会 带 来 潜在 的 一 致 性 问题 。 
这 个 问题 下 文中 再 来 解释 。 

可 见 ， 上 述 过 程 发 送 了 太 多 广播 ， 我 们 强烈 需 
要 源 过 滤 机 制 。 为 了 实现 远程 过 滤 目 录 ， 首 先 思考 一 
下 ， 本 地 CPU 如 何 知道 远程 CPU 到 底 缓 存 了 哪些 行 了 
027 一 开始 ， 所 有 CPU 的 缓存 都 是 空 的 ， 一 旦 任意 一 
个 CPU 发 生 Load 操 作 ， 那 么 必然 会 发 出 RdPrb 消 息 。 
由 于 发 送 RdPrb 消 息 的 CPU 的 本 地 目录 是 空 的 ， 其 必 
定 将 该 消息 广播 到 全 网 ， 那 么 本 地 CPU 就 可 以 收 到 该 
广播 ， 很 自然 地 就 知道 了 “哪个 CPU 读 取 了 这 一 行 并 
缓存 了 ”。 如 果 是 Stor 指 令 ， 一 旦 未 命中 缓存 ， 也 会 
发 起 RdIvldPrb 消 息 广播 到 全 网 ， 这 样 ， 其 他 CPU 也 就 
知道 “这 个 CPU 缓存 了 这 行 ”。 只 要 经 过 足够 长 的 时 
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图 6-167 没有 远程 过 滤 目 录 时 的 CC 示意 图 (1) 
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图 6-168 没有 远程 过 滤 目 录 时 的 CC 示意 图 (2) 


间 ， 就 可 以 积累 足够 多 的 追踪 记录 ， 从 而 逐渐 实现 过 
滤 的 目的 。 这 个 过 程 ， 称 之 为 目录 的 预 热 过 程 。 

那么 ， 这 个 远程 追踪 目录 需要 存储 什么 信息 呢 ? 
一 个 bitmap 向 量 是 必须 的 ，bitmap 中 位 的 数量 就 是 系 
统 中 所 有 远程 核心 的 数量 〈 本 地 核心 就 不 需要 在 远 
程 目录 里 追踪 了 ， 有 本 地 LLC 目 录 ) 。 另 外 ， 由 于 追 
踪 的 是 远程 CPU 内 部 可 能 缓存 的 行 ， 对 应 的 行 可 能 
在 本 地 并 没有 缓存 在 LLC 中 ， 所 以 和 欲 将 bitmap 存 在 本 
地 LLC 对 应 行 中 就 不 可 能 了 。 必 须 单独 开辟 一 块 高 速 
存储 器 空间 ， 存 储 对 应 行 的 地 址 、 对 应 行 的 bitmap 向 
量 。 如 果 要 更 加 精细 的 记录 ， 比 如 不 仅仅 要 记录 对 应 
行 是 否 存在 于 某 个 核心 缓存 里 ， 还 想 知道 对 应 行 目 
前 的 MESIF 状 态 ， 那 就 还 必须 记录 一 个 状态 字段 ， 比 
如 ， 只 要 收 到 对 方 的 WrtIvld 消 息 ， 那 么 本 地 就 可 以 判 
断 对 方 缓存 中 的 该 行 一 定 处 于 M 态 了 。 

缓存 行 地 址 需要 几 十 位 ， 比 如 64 位 地 址 ， 缓 存 行 
大 小 64 字 节 (需要 6 位 来 编 址 ) ， 那 么 缓存 行 地址 长 
度 就 为 64-6=58 位 ， 再 加 上 3 位 的 MESIF 状 态 位， 以 及 
bitmap 向 量 的 16 位 〈 假 设 系统 为 4 个 4 核心 CPU) ， 则 
这 一 条 追踪 记录 就 得 至 少 78 位 大 小 。 如 果 要 追踪 所 有 
的 缓存 行 ， 也 就 是 2* 条 记录 ， 再 乘 以 78 位 ， 其 容量 将 
会 非常 大 。 所 以 ， 该 追踪 目录 势必 要 做 出 类 似 缓存 和 
RAM 之 间 无 法 全 包含 时 一 样 的 处 理 ， 比 如 直接 相连 
方式 ， 能 省 掉 一 些 地 址 位 ， 这 样 多 条 追踪 记录 会 相互 
挤占 同一 个 位 置 ， 还 需要 再 次 比 对 缓存 行 的 物理 地 址 
Tag 才 能 判断 是 否 该 记录 有 效 ， 如 果 发 现 不 匹配 ， 则 
认为 未 过 滤 成 功 ， 对 应 的 广播 必须 发 出 。 

图 6-169 为 一 条 记录 项 的 示意 图 。 思 考 一 下 ， 某 
个 变量 并 不 是 任何 时 候 都 会 被 系统 中 所 有 核心 缓存 


的 。 假 设 系 统 共有 4 个 核心 ， 那 么 ， 某 个 变量 被 缓存 
的 场景 共 可 分 为 : 只 被 1 个 核心 缓存 〈 共 4 种 组 合 ) ~ 
被 2 个 核心 缓存 〈 共 6 种 情况 ) 、 被 3 个 核心 缓存 〈 共 
4 种 情况 ) 、 被 全 部 4 个 核心 缓存 〈 共 1 种 情况 ) ， 总 
共 15 种 状态 。 系 统 运行 的 时 候 ， 根 据 不 同 程序 场景 而 
定 ， 在 这 15 种 情况 中 ， 出 现 比例 最 大 的 可 能 只 有 少数 
几 种 ， 我 们 假设 为 8 种 ， 分 别 为 : 被 核心 1 缓存 、 被 核 
心 2 缓存 、 被 核心 3 缓存 、 被 核心 4 缓存 、 被 核心 2/4 缓 
存 、 被 核心 /3 缓存 、 被 核心 1/2/3 缓 存 、 被 核心 2/3/4 
缓 在。 那么 ， 我 们 只 需要 存储 3 位 就 可 以 描述 这 8 种 
状态 。 每 次 CA 根据 接收 到 的 CC 消息 需要 更 新 该 条 目 
时 ， 电 路 先 将 当前 存储 的 3 位 根据 上 述 8 种 规定 译 码 展 
开 之 后 输入 到 一 个 4 位 逻辑 电路 ， 然 后 再 把 本 次 需要 
修改 的 位 合 入 到 这 4 位 中 ， 再 通过 收缩 译 码 器 将 这 4 位 
译 码 成 上 述 8 种 情况 中 的 一 种 。 如 果 本 次 修改 的 位 恰 
好 没有 匹配 上 述 8 种 场景 中 的 任何 一 种 ， 比 如 本 次 合 
入 之 后 结果 是 “被 核心 3/4 缓 存 ”， 我 们 称 之 为 溢出 。 
此 时 ， 译 码 器 被 设计 为 输出 一 个 溢出 信号 ， 然 后 ， 电 
路 可 以 决定 ， 是 将 该 条 目 直接 作废 〈 因 为 它 已 经 无 法 
反映 真实 情况 了 ) ， 还 是 动态 在 线 地 变更 译 码 策略 。 
后 者 这 种 做 法 更 加 智能 ， 但 是 其 需要 该 译 码 器 是 可 配 
置 的 ， 可 以 根据 寄存 器 中 的 控制 字 决 定 如 何 译 码 。 比 
如 在 上 述 情况 中 ， 可 以 通过 变更 控制 器 寄存 器 内 的 控 
制 位 ， 让 译 码 器 改 为 可 以 将 “被 核心 34 缓 存 ” (对 应 
4 位 展开 bitmap 值 0011) 翻译 成 比如 “010”， 从 而 替 
代 上 述 规定 中 的 一 种 。 下 次 如 果 又 变化 了 ， 那 就 再 替 
代 一 种 。 
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这 个 过 程 就 像 可 配置 的 软件 一 样 ， 比 如 Word 
软件 默认 Ctrl+= 键 是 将 某 个 字 作为 下 标 ， 这 是 默认 
的 译 码 方式 ， 但 是 你 也 可 以 改 成 其 他 按键 组 合 来 当 
作 下 标的 热 键 ， 当 然 你 也 可 以 让 Ctrl+= 组 合 做 其 他 
动作 。 


这 种 用 更 少 的 位 存储 更 加 有 限 的 信息 的 追踪 目 
录 ， 被 称 为 有 限 指针 目录 ， 其 相对 全 展开 的 bitmap 向 
量 而 言 ， 会 漏 记录 一 些 信息 ， 但 是 换 来 了 存储 空间 的 
节省 。 具 体 设计 中 ， 可 以 灵活 选择 最 常用 的 那些 组 
合 ， 实 践 证 明 还 是 比较 有 效 的 。 

还 有 一 种 节省 空间 的 方式 ， 被 称 为 稀疏 目录 。 其 
用 一 个 全 bitmap 向 量 条 目 同 时 表示 多 个 缓存 行 的 追踪 
记录 ， 比 如 某 个 缓存 行 的 bitmap 为 0011， 另 一 个 缓存 
行 的 bitmap 为 1000， 那 么 这 个 条 目 里 存储 的 是 1011， 
也 就 是 0011 OR 1000， 两 个 bitmap 做 OR 运 算 。 这 样 会 
产生 误 判 ， 也 就 是 实际 上 是 不 命中 的 ， 但 是 根据 记录 
显示 却 是 命中 的 ， 这 不 会 影响 正确 性 ， 因 为 对 于 CC 
来 讲 ， 误 判 为 命中 的 ， 则 会 发 送 CC 消息 到 对 方 ， 对 
方 真 的 去 查询 自己 LI/L2 缓 存 时 就 会 发 现 其 实 是 不 命 
中 的 。 当 核心 数量 较 少 时 以 及 用 同一 行 表示 太 多 的 组 
存 行 时 ， 稀 疏 目 录 方式 有 较 大 的 误 判 率 ， 比 如 bitmap 
可 能 时 刻 都 是 1111， 根 本 无 法 过 滤 任 何 广播 。 

那么 ， 这 个 远程 追踪 目录 放 在 哪里 合适 呢 ? 在 
早期 的 一 些 CPU 设 计 中 ， 该 目录 被 保存 在 RAM 的 某 
固定 区 域 中 ， 也 就 是 查 目录 之 前 要 先 访问 RAM 把 目 
录 读 出 来 ， 速 度 会 比较 慢 。 为 了 提速 这 个 过 程 ， 那 时 
候 还 专门 设置 了 一 个 目录 缓存 (Directory Cache) , 


其 作用 与 dCache/iCache 以 及 TLB Cache 是 一 样 的。 但 
是 在 后 来 的 CPU 中 ， 由 于 LLC 缓 存 越 来 越 大 ， 于 是 干 
脆 直 接 将 目录 整体 存储 到 某 个 LLC 缓 存 分 片 中 ， 或 者 
每 个 LLC 分 片 各 存 一 部 分 。 下 文中 的 设计 是 针对 每 
个 CPU， 只 在 其 一 个 LLC 分 片 内 开辟 一 块 空间 存 追 踪 
目录 。 

图 6-170 为 AMD 旗 下 某 代 CPU 架 构 的 示意 图 。 其 
在 6MB 的 LLC 中 开辟 了 1MB 作 为 目录 ， 每 条 目录 项 大 
小 为 4 字 节 ， 则 可 容纳 256K 条 目录 项 。 
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图 6-170 在 LLC 中 存储 全 局 过 滤 目 录 
如 图 6-171 所 示 的 设计 ， 在 每 个 CPU 的 一 个 L3 缓 
存 分 片 内 开辟 一 块 空间 ， 专 门 用 于 存储 远程 目录 。 
一 开始 所 有 缓存 、 目 录 都 是 空 的 。C4 发 起 Load 操 
作 ，C4 的 CA 首先 查询 本 地 目录 ， 结 果 不 命 中 ， 证 明 
本 地 CPU 并 没有 缓存 该 行 ， 那 么 它 需要 问 一 下 远程 
CPU 有 没有 ， 所 以 它 再 查询 远程 目录 。 当 然 ， 可 以 
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图 6-171 ”远程 过 滤 目录 的 预 热 过程 O) 


做 一 些 优化 设计 ， 比 如 并 行 查询 本 地 和 远程 目录 ， 
本 地 如 果 命中 ， 则 忽略 远程 目录 的 查询 结果 。 本 例 
中 ， 本 地 目录 没有 命中 ， 则 其 无 须 向 本 CPU 内 的 核 
心 发 送 RdPrb 消 息 ; 同时 ， 由 于 远程 目录 也 没有 命 
中 ， 所 以 其 必须 发 出 目标 地 址 为 广播 地 址 的 RdPrb 消 
息 给 外 部 网 络 。 

这 里 需要 注意 的 一 点 是 ， 该 访 存 请 求 的 地 址 落 
入 了 哪个 MC 后 面 的 RAM， 则 对 应 的 RdPrb 消 息 也 必 
须发 送 给 对 应 MC 前 端的 HA， 该 HA 即刻 做 三 件 事 : 
从 后 端 RAM 读 出 该 行 数据 、 查 询 远 程 目录 看 看 远程 
CPU 是 否 已 经 缓存 过 该 行 、 查 询 本 地 目录 看 看 本 地 
CPU 是 否 缓存 了 该 行 ， 如 果 本 地 和 远程 都 没有 缓存 
该 行 ， 那 么 HA 必须 负责 返回 刚才 从 RAM 中 读 出 的 
数据 。 

如 图 6-172 所 示 ， 收 到 RdPrb 广 播 的 HA 和 核心 都 
要 查询 本 地 目录 ，HA 还 需要 查询 远程 目录 。 假 设 本 
例 中 全 都 没有 命中 ， 则 左 侧 CPU 的 四 个 核心 以 及 其 他 
CPU 的 各 个 核心 也 各 自 返 回 RdRspNdC 消 息 ，HAo 返 
可 RdRspDH 消 息 携带 了 数据 。 然 后 ， 左 侧 CPU 的 远 
程 目录 必须 被 更 新 ， 以 便 记录 “该 缓存 行 已 被 Cs 缓存 
了 ”， 那 么 ， 该 由 谁 去 更 新 目录 呢 ? 看 上 去 HA 和 CA 
都 知道 “该 缓存 行 已 被 C4 缓存 了 ”这 件 事 ， 它 们 都 可 
以 去 更 新 。 类 似 问题 上 文中 已 经 遇 到 过 ， 我 们 下 文 再 
来 解释 。C4 的 CA 收 到 数据 以 及 一 堆 其 他 核心 发 来 的 
RdRspNdC 消 息 ， 将 数据 反馈 给 核心 Load/Stor 单 元 ， 
并 将 C4 内 的 私有 缓存 状态 改 为 E 态 ， 同 时 更 新 本 地 目 
录 以 记录 该 行 目前 在 Ci 缓存 。 

下 面 我 们 看 一 下 远程 目录 究竟 是 怎么 在 源头 过 滤 
广播 的 。 如 图 6-173 所 示 ，Co 发 起 Stor 请 求 ，Co 的 CA 
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同时 向 本 地 目录 和 远程 目录 发 起 查询 ， 本 地 目录 显示 
Ci 中 缓存 了 该 行 ， 远 程 目录 中 显示 Cses 缓 存 了 该 行 ， 
于 是 CA 封装 出 对 应 目标 地 址 的 WrtIvld 消 息 分 别 发 送 
给 这 些 核心 。 收 到 作废 消息 的 核心 各 自分 头 去 查询 本 
地 目录 看 看 自己 有 没有 缓存 该 行 ， 如 果 有 ， 则 作废 之 
并 发 出 IvldRspF 消 息 ; 如 果 没有 则 直接 发 出 TvldRspN 
消息 。 这 里 有 个 疑问 ， 既 然 左 侧 CPU 的 远程 目录 显示 
Css 缓存 了 该 行 ，Cses 收 到 了 WrtIvld 消 息 为 什么 还 得 
查 一 遍 它 们 各 自 的 本 地 目录 呢 ? 因为 远程 目录 中 的 结 
果 可 能 是 错误 的 ， 也 就 是 远程 目录 说 命中 ， 不 一 定 真 
命中 《比如 远程 CPU 将 数据 读 入 之 后 ， 又 默默 地 换 出 
了 ， 这 个 过 程 是 不 会 通知 其 他 CPU 的 ) ， 本 例 中 Cs 其 
实 并 没有 缓存 该 行 ， 但 是 左 侧 CPU 的 远程 目录 却 认为 
其 缓存 了 该 行 。 远 程 目录 说 不 命中 ， 必 须 一 定 是 真 的 
不 命中 ， 下 文中 会 看 到 ， 当 前 的 设计 是 无 法 保证 后 者 
的 ， 所 以 需要 变更 设计 。 

如 图 6-174 所 示 ，Ce 发 出 IvldRspF 之 后 更 新 本 地 目 
录 以 清 掉 自己 缓存 中 该 行 的 记录 。Co 的 CA 根据 接收 
到 的 结果 ， 在 收集 了 对 应 核心 的 所 有 回应 之 后 ， 向 核 
心 通告 Stor 完 成 ， 核 心 在 将 对 应 数据 写 入 缓存 之 后 删 
掉 Stor Queue 中 的 记录 。 此 时 Co 的 CA 需要 更 新 本 地 目 
录 以 体现 该 行 由 SF 到 M 的 状态 变化 ， 同 时 更 新 远程 目 
录 以 体现 其 他 核心 中 的 该 行 都 被 作废 了 。 
6.9.10.4 ”利用 HA 代理 片 内 CC 事务 

上 文中 ， 初 步 梳理 了 一 下 本 地 目录 和 远程 目录 在 
滤 除 不 必要 流量 时 所 发 挥 的 作用 。 但 是 上 述 设计 存在 


一 个 致命 逻辑 问题 ， 同 时 性 能 也 不 够 优化 。 
【问题 1: 逻辑 错误 】 假 设 某 个 CPU 拥 有 处 于 S 
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图 6-173 ”远程 过 滤 目 录 发 挥 作用 时 的 流程 A) 
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图 6-174 ”远程 过 滤 目 录 发 挥 作用 时 的 流程 (2) 


态 的 某 缓存 行 ， 其 他 CPU 的 远程 目录 中 也 追踪 到 了 该 
行 。 但 是 某 时 刻 该 CPU 将 该 缓存 行 换 出 了 ， 此 事件 完 
全 是 本 CPU 的 内 务 ， 并 不 会 发 广播 通告 ， 而 此 时 其 他 
CPU 的 远程 目录 依然 认为 该 缓存 行 还 在 该 CPU 中 被 持 
有 。 这 并 不 会 产生 逻辑 问题 ， 当 作废 通知 发 到 该 CPU 
时 ， 该 CPU 会 查询 本 地 目录 再 过 滤 一 遍 ， 就 算 不 查询 
本 地 目录 ， 直 接 查 询 LI/L2 私 有 缓存 ， 最 终 会 发 现 缓 
存 中 并 没有 该 行 ， 返 回 IvldRspN 消 息 ， 充 其 量 也 就 是 
影响 了 性 能 ， 并 不 会 产生 逻辑 问题 。 但 是 下 面 的 情 
况 就 不 同 了 。 假 设 某 行 在 CPU 2 中 的 某 核心 缓存 中 处 


于 M 态 ，CPU 1 的 远程 目录 中 也 记录 了 这 一 点 。 某 时 
Ж], CPU 1 向 CPU 2 的 该 核心 单 播发 起 RdPrb 请 求 读 该 
行 ， 然 后 它们 共同 持 有 该 $ 态 副本 。 这 个 过 程 ， 其 他 
CPU 是 不 知道 的 ， 它 们 误 认 为 该 行 依然 只 在 CPU 2 中 持 
有 唯一 的 一 份 且 为 M 态 ， 这 样 ， 一 旦 其 他 某 个 CPU 发 
起 写 该 行 的 操作 ， 那 么 CPU 1 就 不 会 收 到 WrtIvld 或 者 
RdIvldPrb 操 作 ， 导 致 CPU 1 上 该 行 未 作废 ， 产 生 逻 辑 错 
误 。 也 就 是 说 ， 上 述 设计 并 不 能 保证 “远程 目录 说 不 
命中 就 一 定 不 命中 ”， 只 能 做 到 “远程 目录 说 命中 但 
是 实际 可 能 不 命中 ”。 很 显然 ， 并 不 是 所 有 事件 都 通 


告 给 所 有 人 ， 导 致 沟通 不 同步 ， 就 会 产生 该 问题 。 

【问题 2， 浪费 资源 】 另 外 ， 上 述 设计 比较 浪费 
资源 的 一 点 是 ， 一 旦 源头 过 滤 未 命中 ， 必 须发 送 给 广 
播 消息 ， 那 么 这 个 消息 会 跨越 片 外 网 络 被 所 有 的 CA 
收 到 ， 这 个 过 程 的 延迟 相 比 片 内 网 络 要 高 ， 代 价 较 
高 。 收 到 之 后 ， 所 有 CA 都 去 查询 同一 份 本 地 目录 以 
判断 是 否 命中 在 自己 的 私有 缓存 。 其 实 ， 大 家 看 的 都 
是 同一 条 记录 ， 为 什么 不 能 只 看 一 次 ， 然 后 把 结果 告 
诉 对 应 的 CA 呢 ， 只 告诉 那些 命中 的 CA 让 它们 查询 组 
存 并 做 出 作废 等 动作 即 可 ， 对 于 那些 不 命中 的 CA， 
根本 就 不 需要 收 到 该 广播 。 也 就 是 说 ， 是 否 可 以 将 广 
播 先 发 给 一 个 CPU 片 内 的 代理 /助理 角色 ， 让 这 个 代 
理 查 目录 ， 然 后 将 广播 消息 发 给 命中 的 CA? 同时 ， 
如 果 需 要 对 目录 做 更 改 ， 也 由 这 个 代理 来 完成 ， 这 样 
就 不 需要 每 次 收 到 广播 都 触发 所 有 CA 乱 哄 哄 地 齐 上 
阵 了 。 

上 述 设计 中 我 们 忽略 了 一 个 角色 ，HA ИК 
BB) ， 也 就 是 MC 前 端的 CA。 显 然 ， 对 于 问题 2，HA 
担任 这 个 代理 的 角色 最 适合 不 过 的 。 对 于 问题 1， 如 
果 所 有 的 请 求 消息 全 都 先 发 送 给 HA， 由 HA 代理 执 
行 ， 那 么 HA 就 会 通晓 整个 系统 全 局 事件 ， 从 而 做 到 
向 对 应 的 CA 通知 对 应 的 消息 。 在 QPI 控 制 器 上 做 设 
置 ， 凡 是 收 到 入 方向 上 的 广播 流量 ， 全 部 发 给 HA， 
由 HA 先 查 一 遍 目录 过 滤 ， 滤 不 掉 的 ， 发 送 给 对 应 CA 
ДЕЯ; 对 应 CA 不 需要 再 去 查 bitmap， 而 是 相信 HA 的 
判断 ， 直 接 去 搜 自己 的 L1、L2 缓 存 ， 返 回 结果 后 ， 回 
应 消息 发 给 HA; HA 再 将 L3 中 的 局 部 目录 bitmap 做 对 
应 变更 ， 同 时 对 全 局 目录 也 进行 变更 ， 同 时 将 回应 消 
息 传送 给 请 求 方 。 

更 进一步 思考 ， 如 果 在 每 个 CPU 上 都 保存 一 份 
独立 的 远程 目录 ， 比 如 CPU 1 上 保存 有 某 缓存 行 的 
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bitmap 向 量 ， 而 CPU 2/3/4 上 也 存 有 一 份 一 模 一 样 的 ， 
这 意味 着 ， 在 一 个 4 核心 CPU 的 系统 中 ，CPU 1 上 的 目 
录 存 有 CPU 2/3/4 中 缓存 的 记录 ，CPU 2 上 的 目录 存 有 
CPU 1/3/4 上 缓存 的 记录 ， 有 四 分 之 三 是 重复 的 。 很 
显然 ， 更 好 的 办 法 则 是 CPU 1 上 只 保存 CPU 1 的 MC 挂 
接 的 RAM 所 承载 的 地 址 空间 的 缓存 行 记录 ， 其 他 CPU 
也 一 样 。 这 样 的 话 ， 任 何 一 个 RdPrb 请 求 ， 不 需要 广 
播 ， 而 直接 发 给 承载 对 应 地 址 的 那个 HA， 因 为 对 应 
的 远程 目录 也 归 该 HA 来 管理 和 查询 。 这 样 的 话 ， 也 
不 需要 本 地 目录 了 ， 只 有 独立 的 全 局 目录 ， 交 给 各 
CPU 上 各 自 的 HA 来 管理 。 

下 面 我 们 将 设计 变更 一 下 以 满足 上 面 这 几 个 思 
路 。 如 图 6-175 所 示 ， 初 始 时 所 有 缓存 和 目录 为 空 。 
Co 发 起 Load 操 作 未 命中 LLC 〈 这 一 步 图 中 未 标 出 ) ， 
CA 根据 访 存 地址 判断 该 地 址 落 入 和 HA 的 范围 内 ， 
遂 向 HA。 发 起 RdPrb 请 求 。HA 发 起 对 RAM 的 读 取 操 
作 ， 同 时 ， 并 行 地 查询 全 局 目录 结果 未 命中 ， 证 明 
系统 内 无 人 缓存 该 数据 ， 遂 将 从 RAM 读 出 的 数据 用 
RdRspDH 消 息 返回 给 CA。， 并 更 新 全 局 目录 记录 该 行 
已 被 缓存 在 了 Co 中 ， 状 态 为 E。CAo 将 数据 返回 给 核心 
的 Load/Stor 单 元 ， 同 时 将 Co 内 部 私有 缓存 的 该 行 状 态 
改 为 E， 这 样 核 心 后 续 就 可 以 针对 它 自由 访问 ， 无 须 
CA 接 入 。 如 果 为 Inclusive 模 式 ，CA 还 需要 将 该 行 数 
据 一 并 写 入 对 应 的 LLC 分 片 ( 并 不 一 定 是 本 地 LLC 分 
片 ， 视 地 址 而 定 ) 。 

基于 上 面 的 状态 ， 如 图 6-176 所 示 。 某 时 刻 ，C4 发 
起 了 针对 该 行 的 Load 操 作 也 未 命中 LLC， 于 是 CA, 根 
据 访 存 地 址 判断 该 地 址 落 入 了 HA。 的 管辖 范围 ， 于 是 
向 HA 发 起 RdPrb 消 息 。HA 收 到 该 消息 ， 查 询 全 局 目 
Ж (为 了 优化 ，HA 可 能 也 会 命令 MC 从 后 端 读 RAM 
以 防 万 一 目录 不 命中 ， 视 具体 设计 而 定 ) ， 结 果 命 
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中 ， 显 示 Co 拥 有 该 行 且 为 E 态 ， 遂 向 CA 发 起 RdPrb 请 
求 ， 在 请 求 中 明确 给 出 “是 C4 找 你 要 的 ”。 所 以 该 
请 求 中 会 有 两 个 源 地 址 ， 第 一 个 源 地 址 HA。 是 给 片 内 
访 存 网 络 路 由 用 的 ， 第 二 个 内 层 的 源 地 址 Cs 是 给 CA。 
看 的 ， 让 它 知道 是 Cs 要 数据 。 同 时 ，HA。o 更 新 全 局 目 
录 。CAu 收 到 该 消息 ， 读 出 数据 ， 用 内 层 戏 入 HA 源 
地 址 的 RdRspDC 消 息 返 回 给 C4，C4 收 到 消息 会 同时 
得 知 : HA 已 经 成 功 代理 该 笔 CC 请 求 ， 数 据 是 从 Co 
过 来 的 ， 那 我 就 放心 了 《〈 并 不 是 Co 无 端 给 我 发 了 个 消 
息 ) 。CA4 将 数据 发 给 核心 Load/Stor 单 元 ， 同 时 将 组 
存 中 的 该 行 状态 改 为 F， 因 为 它 知 道 自己 是 最 后 一 个 
拿 到 该 数据 的 ， 而 且 Co 也 持 有 一 份 。 
接着 上 一 步 的 状态 ， 如 图 6-177 所 示 。C? 针 对 该 


缓存 行 发 起 了 Stor 操 作 ， 未 命中 LLC， 则 CA 直接 向 
HA 发 出 RdIvldPrb 消 息 ， 尝 试 从 其 他 核心 获取 最 新 数 
据 顺 便 让 对 方 作废 。HAo 收 到 该 消息 ， 查 询 目录 发 现 
Co 拥有 S 态 的 该 行 、C4 拥 有 F 态 的 该 行 ， 于 是 向 Co 发 起 
WitIvld 请 求 〈 不 需要 Co 提供 数据 ， 直 接 作废 即 可 ) ， 
同时 向 Cs 发 出 内 层 嵌 有 C? 源 地 址 的 RdIvldPrb 消 息 〈 需 
要 C4 先 提供 数据 给 C7y， 再 作废 ) 。CA4 收 到 该 消息 ， 
得 知 三 个 信息 : HA 代理 了 该 轮 CC 请 求 、Cy 要 该 数 
据 、 顺 便 作 废 。CAs 读 出 数据 准备 发 送 给 C;， 然 后 作 
废 ， 未 完 待 续 。 

紧 接 上 一 步 的 状态 ， 如 图 6-178 所 示 。CA4 将 读 
出 的 数据 用 内 层 嵌 有 HA 源 地 址 的 RdRspDC 消 息 返 回 
给 C7，C7? 知 道 了 两 件 事 : HA 代理 了 本 轮 CC 流 程 〈 所 
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图 6-176 利用 HA 全 局 代理 CC 的 流程 示例 (2) 
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图 6-177 利用 HA 全 局 代理 CC 的 流程 示例 (3) 
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图 6-178 利用 HA 全 局 代理 CC 的 流程 示例 (4) 


以 可 以 确保 其 他 持 有 者 已 经 作废 ) 、 自 己 拿 到 了 最 
新 的 数据 而 且 是 从 C4 发 过 来 的 。CA; 拿 到 数据 写 入 组 
存 ， 并 将 状态 设置 为 M 态 。 这 还 没完 ，CAs 和 CAo 必 
须 向 HA 返回 IvldRspF 消 息 。HA 收 到 之 后 ， 更 新 全 局 
目录 。 


6.9.10.5 


至 此 介绍 了 在 Inclusive 模 式 下 将 本 地 bitmap 向 量 
嵌入 到 LLC 每 一 行 中 的 记录 作为 本 地 目录 ， 同 时 辅 以 
每 个 CPU 独 立 记录 的 远程 目录 ; 又 介绍 了 统一 的 全 
局 目录 ， 每 个 HA 只 保存 自己 所 承载 的 地 址 空间 的 缓 
存 行 目录 ， 每 个 核心 的 访问 均 要 去 HA 探 询 〈 根 据 访 
存 地 址 确定 其 落 入 的 HA) ， 由 HA 统一 代理 执行 CC 
操作 。 实 际 的 商用 CPU 产品 中 所 使 用 的 CC 方式 不 一 
而 同 。 有 些 CPU 同 时 支持 上 述 两 种 方式 ， 比 如 Intel 
的 Xeon 系 列 CPU 支持 Home Probe (转发 给 HA 统一 探 
WJ) 与 Source Probe〈 亲 自 直 接 探 询 ) 两 种 模式 。 对 
于 核心 数量 较 少 的 情况 ， 如 果 每 次 访 存 请 求 都 发 给 
Home 节 点 ， 后 者 过 滤 之 后 再 转发 的 话 ， 虽 然 降 低 了 
广播 量 ， 但 是 每 一 笔 请 求 都 要 增加 一 跳 ， 对 性 能 其 实 
反而 有 所 影响 。 

Intel 在 8 路 CPU 以 下 的 系统 中 的 推荐 做 法 是 直接 
由 请 求 节点 发 出 广播 探 询 〈 也 就 是 Source Probe) , 
然后 所 有 节点 处 理 该 探 询 ， 并 返回 应 答 ， 但 是 应 答 并 
不 是 返回 给 请 求 节点 ， 而 是 返回 给 Home 节 点 ; 与 此 
同时 ， 拥 有 最 新 数据 副本 的 节点 直接 将 数据 返回 给 请 
求 节点 ， 该 节点 也 会 同步 向 Home 节 点 应 答 ; 最 后 ， 
Home 节 点 向 请 求 节点 发 出 应 答 ， 表 示 该 操作 结束 。 
这 个 过 程 被 称 为 Source Probe， 也 就 是 谁 发 起 请 求 ， 
谁 直接 广播 Probe。Home Probe 方 式 下 必须 由 Home 节 
点 过 滤 之 后 再 转发 Probe，AMD 某 代 CPU 使 用 的 就 是 


小 结 


Home Probe。 当 节点 〈 核 心 或 者 CPU 芯片 ) 数量 较 少 
的 时 候 ，Source Probe 效 率 较 高 ， 而 核心 数量 较 多 时 ， 
由 于 源 广播 量 太 大 ， 源 直接 广播 探 询 就 不 合适 了 。 
Intel 的 CPU 可 以 配置 成 使 用 Source Probe 或 者 Home 
Probe， 通 过 在 BIOS 中 设 定 ， 如 果 在 系统 初始 化 时 对 
CA 配置 了 对 应 的 bitmap 向 量 ， 而 Home Agent 的 全 局 目 
录 为 空 ， 那 么 系统 就 进入 Source Probe 模 式 ， 反 之 则 
是 Home Probe 模 式 。 关 于 Intel QPI 体 系 下 的 CC 流程 详 
见 后 文 。 

现在 你 就 知道 了 CA 和 HA 被 起 名 为 Agent 的 原因 ， 
其 做 的 事情 就 是 代理 。 多 CPU 之 间 合 然 已 经 是 一 个 复 
杂 的 网 络 通信 系统 了 ， 牵 扯 到 极 高 的 时 序 复杂 度 。 由 
于 每 一 条 访 存 指令 的 执行 ， 都 与 CC 流量 呈 紧 耦合 关 
系 ， 谁 做 得 更 优化 ， 谁 每 秒 执行 的 指令 数 就 多 ， 性 能 
就 越 好 。 

基于 嗅 探 的 CC 和 基于 目录 的 CC， 是 两 大 CC 方 
案 。 最 早期 ， 节 点 间 使 用 共享 总 线 连 接 ， 每 一 笔 操 作 
的 探 询 和 嗅 探 无 代价 ， 此 时 源 和 目的 不 需要 目录 来 记 
录 其 他 CPU 缓存 的 状态 ， 因 为 其 他 CPU 做 了 什么 事 大 
家 都 知道 ， 每 次 跟着 同步 就 可 以 了 。 但 是 每 次 都 同步 
也 不 划算 ， 所 以 出 现 了 各 种 嗅 探 过 滤器 ， 比 如 JETTY 
之 类 的 ， 但 是 这 些 过 滤 机 制 没有 形成 一 个 成 形 的 广泛 
使 用 的 标准 ， 而 且 都 是 在 目的 端 过 滤 ， 且 JETTY 等 过 
滤器 由 于 只 是 非 精 准 过 滤 ， 所 以 不 称 之 为 “目录 ”。 
后 来 因为 总 线 扩展 性 太 差 ， 出 现 了 Crossbar、Ring 等 
访 存 网 络 拓扑 。 在 这 类 网 络 里 ， 嗅 探 广播 的 代价 是 很 
高 的 ， 广 播 必 须 被 所 有 节点 转发 ， 极 大 浪费 。 节 点 数 
量 较 少 时 ， 尚 可 使 用 广播 方式 ， 而 节点 数量 超过 8 个 
以 后 ， 广 播 方式 就 不 行 了 ， 流 量 太 大 ， 所 以 没有 远 
端 过滤 和 精确 目录 过 滤 的 原始 嗅 探 方式 彻底 被 淘汰 
了 ， 必 须 使 用 基于 目录 追踪 的 源 端 过 滤 的 探 询 过 滤 


大话 计算 机 一 一 计算 机 系统 底层 架构 原理 极限 剖析 


器 (probe filter) 。 然 而 分 级 的 缓存 又 给 CC 带 来 了 更 
大 的 复杂 度 ， 为 了 降低 L1、L2、L3 缓 存 之 间 的 两 两 
交互 ， 使 用 LLC 来 保存 bitmap 向 量 ，Inclusive 模 式 的 
LLC 直 接 在 每 个 缓存 行 追加 一 个 bitmap 向 量 即 可 实现 
目录 过 滤 ， 而 且 每 次 只 查询 LLC 就 可 以 ， 但 Exclusive 
模式 每 次 收 到 Invalidate 消 息 就 得 查询 L1 和 L2 缓 存 找 
对 应 的 行 。 再 后 来 ， 分 布 式 的 LLC 和 越 来 越 大 的 网 络 
规模 又 给 CC 提出 了 新 挑战 ， 从 而 不 得 不 让 Home 节 点 
全 权 代 理 CC， 每 个 Home 节 点 维护 本 地 承载 的 地 址 范 
围 对 应 的 追踪 目录 ， 所 有 探 询 交 给 Home 节 点 来 过 滤 
后 再 发 出 ， 然 而 这 么 做 代价 就 是 绕 远 路 ， 时 延 高 ， 于 
是 又 开始 反 过 来 做 取舍 。 比 如 ， 有 些 设计 针对 Write 
Invalidate 消 息 直接 广播 给 本 片 内 的 所 有 核心 ， 同 时 也 
发 给 HA 一 份 ， 对 方 再 负责 其 他 CPU 的 作废 处 理 。 

在 目前 广泛 使 用 的 基于 大 规模 多 级 交换 /Ring 互 联 
场景 下 ， 又 不 少 人 也 在 研究 如 何 优化 消息 传递 效率 ， 
比如 将 目录 分 布 到 整个 网 络 中 的 每 个 交换 器 /Ring 站 
点 中 去 ， 动 态 路 由 消息 ， 可 以 降低 流 到 Home 节 点 的 
流量 ， 这 种 方案 就 是 下 文 会 介绍 的 In-Network CC 过 
滤器 。 而 多 芯片 之 间 的 CC 更 是 雪上 加 霜 ， 探 询 流量 
必须 经 过 片 外 网 络 转发 到 其 他 芯片 继续 CC， 没 完 没 
了 。 如 果 网 络 规模 继续 扩大 ， 比 如 几 万 个 CPU 互联 ， 
所 谓 High Performance Computing (НРС) 场景 ， 此 时 
由 于 片 外 网 络 时 延 更 高 ， 靠 硬件 保证 CC 的 代价 和 效 
果 都 不 行 了 ， 所 以 得 靠 软 件 自己 去 保证 了 ， 甚 至 每 个 
节点 不 再 采用 共享 内 存 架 构 ， 而 采用 另外 一 种 数据 同 
步 的 范式 ， 比 如 MPI 等 消息 通信 方式 ， 将 会 在 第 9 章 中 


介绍 。 
6.9.10.6 在 网 络 路 径 上 实施 嗅 探 过 滤 


传统 的 基于 目录 过 滤 方 式 下 ， 探 询 消息 先 单 播发 
送 给 Home 节 点 ， 然 后 由 Home 节 点 过 滤 后 重新 单 播 / 广 
播发 起 探 询 。 鉴 于 目前 片 内 NoC 网 络 的 使 用 越 来 越 广 
泛 ， 比 如 2D Full Mesh 类 型 的 网 络 ， 消 息 需要 一 跳 一 
跳 地 传递 到 对 方 ， 于 是 有 一 撮 计 算 机 科学 家 就 对 其 动 
起 了 心思 。 他 们 心 想 : 消息 经 过 这 么 多 路 由 节点 , 千 
辛 万 苦 达 到 Home 节 点 ， 只 为 了 过 滤 一 下 然后 还 得 再 
发 出 来 ? 为 何不 干脆 把 所 有 Home 节 点 的 目录 ， 分 布 
式 的 存储 到 网 络 的 每 个 路 由 节点 中 ? 而 且 动态 创建 条 
目 、 推 送 /学 习 / 删 除 条 目 ? 然后 由 节点 路 由 器 来 决定 
将 流量 导向 给 对 应 的 节点 以 及 应 答 ? 的 确 是 的 ， 设 计 
者 们 利用 一 切 可 以 利用 的 地 方 存 取 目 录 条 目 。 该 设计 
的 本 质 就 是 把 原本 由 HA 代理 的 CC， 转 给 由 网 络 路 由 
器 来 代理 ， 由 于 网 络 路 由 器 的 数量 相 比 HA 的 数量 更 


多 ， 不 同 CC 流 量 就 可 以 更 加 均衡 地 被 处 理 。 


如 图 6-179 所 示 ， 这 是 一 个 在 2D Full Mesh 网 络 
中 的 4 向 路 由 器 /交换 机 的 结构 。 普 通 的 路 由 器 只 做 
地 址 译 码 路 由 ， 但 是 在 这 个 路 由 器 结构 中 ， 除 了 节 
点 地 址 表 之 外 ， 还 增加 了 一 个 新 的 路 由 表 ， 就 是 图 
中 的 “Tree Cache”， 其 中 的 每 个 条 目 包 含 一 个 内 存 


地 址 ，NSEW ( 北 南 东西 》 四 个 位 ，2 个 Root 位 ,一 
个 Busy 位 ， 一 个 Outstanding Request 位 ， 我 们 称 这 个 
路 由 表 为 内 存 地 址 路 由 表 ， 与 节点 地 址 路 由 表 加 以 
区 分 。 
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如 图 6-180 所 示 。 每 当 路 由 器 收 到 一 条 针对 某 内 
存 地 址 的 消息 ， 如 果 该 地 址 未 在 内 存 地 址 路 由 表 中 命 
中 的 话 ， 则 生成 一 条 记录 ， 录 入 该 内 存 地 址 。 然 后 根 
据 消息 的 节点 地 址 将 消息 从 对 应 的 NSEW 端 口 之 一 发 
送 到 目的 节点 。 假 设 该 笔 请 求 是 一 个 读 请 求 ， 发 起 节 
点 为 R1， 目 标 是 该 内 存 地 址 的 Home 节 点 了 。Home 节 
点 收 到 消息 之 后 ， 假 设 其 他 节点 内 均 无 该 内 存 地 址 的 
最 新 副本 ， 则 Home 节 点 返回 数据 给 该 节点 。 在 Home 
节点 到 请 求 节点 之 间 存 在 一 条 由 多 个 路 由 器 组 成 的 数 
据 路 径 ， 设 计 者 称 之 为 “Virtual Tree”， 这 条 路 径 上 
的 所 有 节点 均 参与 了 该 笔 数据 的 转发 ， 在 转发 的 过 程 
中 ， 每 个 参与 转发 的 路 由 器 均 在 其 内 存 地 址 路 由 表 中 
生成 一 条 记录 ， 记 录 该 内 存 地 址 的 最 新 数据 副本 目前 
正 存储 在 Ri 节点 ，Ri 节 点 从 哪个 方向 端口 才能 到 达 ， 
则 就 在 该 条 目 中 东西 南北 四 个 位 中 将 对 应 端口 位 置 
1。R; 直 连 的 节点 就 像 是 这 个 Virtual Tree 的 根 ， 所 以 与 
Ri 直 连 的 那个 节点 路 由 器 的 该 内 存 地 址 的 路 由 条 目 中 
的 Root 位 需要 表示 该 Root 节 点 连接 在 该 路 由 器 的 哪个 
方向 端口 〈 一 共 4 个 方向 ， 所 以 需要 2 位 来 表示 ) 。 

后 续 如 果 这 条 Virtual Tree 上 的 任意 路 由 器 接收 到 
其 他 节点 ， 比 如 Ra， 针 对 该 地 址 发 送 的 读 请 求 ， 则 无 
须 按 照 R, 给 出 的 目标 节点 地 址 (H 节 点) 路 由 到 H， 
而 是 首先 查询 内 存 地 址 路 由 表 ， 直 接 路 由 消息 到 Ri， 
RR 直接 返回 数据 给 R,， 同 时 做 一 步 很 关键 的 动作 ， 即 
将 R, 所 在 的 方向 对 应 的 位 置 1。 此 时 该 内 存 地 址 条 目 
中 有 两 个 端口 被 置 1， 所 有 该 Virtual Tree 的 路 过 路 由 器 
都 针对 自己 到 Ri 和 Rz 方 向 的 端口 置 1。 

随后 ， 另 外 一 个 节点 双 ; 发 起 针对 该 地 址 的 写 操 
作 ， 需 要 先 作 废 现存 的 所 有 缓存 副本 ， 该 消息 同样 先 
转发 到 H 节 点 ， 如 果 恰 好 Wi 发 出 的 消息 被 当前 针对 该 
地 址 的 Virtual Tree 中 的 某 个 路 由 器 收 到 (Full Mesh 网 
络 路 由 规则 根据 设计 不 同 而 不 同 ， 多 数 是 横 平 竖 直 转 
发 ， 所 以 某 个 消息 到 底 走 哪 条 路 ， 碰 到 哪个 节点 路 
由 器 ， 完 全 取决 于 发 送 节 点 和 目标 节点 的 位 置 ， 不 
确定 ) ， 则 该 路 由 器 由 于 预先 知道 当前 R, 和 Rs, 包含 该 
地 址 最 新 副本 ， 所 以 主动 向 Ri 和 Rs 转发 该 作废 请 求 ， 
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图 6-180 ”基于 网 络 路 由 的 分 布 式 过 滤 
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同时 需要 作废 Ri 和 Rs 节点 的 转发 路 径 Tree。 因 为 Wi 节 
点 此 时 知道 RJ/ 和 Rs 已 经 作废 了 ， 后 续 针对 该 地 址 的 访 
间 与 Ri/Rs 无 关 ， 所 以 这 条 Virtual Tree 需要 将 从 Wi 到 
Ri/Rs 节 点 之 间 的 这 条 路 径 声 塌 掉 ， 新 的 Root 变 为 W 
节点 ， 因 为 此 时 Wi 节点 持 有 该 地 址 最 新 副本 。R1/R， 
车 点 收 到 作废 及 击 塌 消息 之 后 ， 发 出 应 答 ， 应 答 消息 
沿 着 尚未 被 作废 的 路 径 向 HH 节点 源头 传递 ， 路 径 上 收 
ЗАЛУ УМ E T ЖЕНЫ НЕВЕ ЕН Ф РУК 
ЗАВ BAI ПУ, Я pi PJ ЗЫ етар 8] EPNER, ШШ 
果 某 个 节点 存在 分 支 而 分 支 下 游 的 所 有 节点 都 需要 被 
声 塌 的 话 ， 那 么 该 节点 必须 等 待 分 支 下 游 节 点 各 自 返 
回应 答 ， 从 而 将 各 自 的 位 置 0， 如 果 东 西南 北 四 个 位 
都 为 0， 该 条 目 整体 可 以 被 从 路 由 表 中 删除 。 虽 然 W， 
到 H 之 间 的 路 径 看 上 去 不 需要 坪 塌 ， 但 是 机 器 是 无 法 
预见 的 ， 所 以 还 是 需要 先 南 塌 掉 。 了 节点 收 到 其 下 游 
针对 该 Virtual Tree 的 节点 都 已 南 塌 之 后 ， 会 发 出 针对 
该 笔 写 请 求 的 应 答 ， 比 如 返回 数据 ， 则 该 消息 又 会 在 
其 经 过 的 路 径 上 重新 建立 起 一 个 新 Virtual Tree。 经 过 
这 种 机 制 处 理 之 后 ， 如 图 中 第 四 幅 所 示 ， 整 条 Virtual 
Tree 从 之 前 的 4 个 节点 夫 塌 掉 又 重新 生成 之 后 ， 变 为 3 
个 节点 ，Root 为 Wi 节点 。 

当 Wi 节 点 路 由 器 中 的 内 存 地 址 路 由 表 已 满 之 后 ， 
如 果 再 有 新 内 存 的 地 址 访问 经 过 该 点 被 路 由 ， 则 必须 
弹出 一 条 现 有 路 由 ， 从 而 为 当前 请 求 创立 新 的 路 由 。 
比如 图 中 的 第 四 幅 所 示 ，Rs 节 点 发 起 一 条 针对 其 他 
地 址 的 读 访 问 ， 该 地 址 的 Home 节 点 为 H”， 其 路 径 
与 Wi 到 也 的 路 径 经 过 同一 个 节点 ， 而 该 节点 路 由 表 已 
满 ， 则 该 节点 主动 发 起 Tree 夫 塌 过 程 ， 将 整 条 Virtual 
Tree, W ñ а) АНИ УН ЛА 32 S EE 
RAM， 然 后 应 答 ， 最 终 以 W, 为 Root 的 Virtual Tree 被 收 
回 ， 然 后 H” 返 回 Ra 请 求 的 数据 ， 同 时 从 Rs 到 H ”的 
Virtual Tree 则 被 生成 。 在 讲述 CPU 内 部 缓存 行 替换 优 
化 设计 时 ， 曾 经 提 到 过 无 辜 者 缓存 (Victim Cache) 
的 概念 ， 也 提 到 过 只 要 设置 哪怕 几 条 容量 的 无 境 者 缓 
存 就 会 极 大 增加 性 能 ， 由 于 缓存 已 满 导 致 的 条 目 弹 出 
同样 也 有 性 能 问题 ， 所 以 一 样 可 以 考虑 使 用 无 辜 者 缓 
存 来 增加 系统 性 能 。 

In-Network CC 过 滤器 是 一 种 嵌入 式 路 径 过滤 ， 
其 本 质 上 是 一 种 7 层 交 换 / 路 由 ， 而 且 是 自学 习 自 组 
织 的 7 层 路 由 。 这 种 过 滤 方 式 被 认为 是 实现 更 大 规模 
ccNUMA 系 统 的 下 一 代 设计 优良 方案 。 的 确 ， 流 量 过 
滤 、 转 发 等 ， 一 向 都 是 网 络 设备 的 原生 角色 和 强项 。 


6.9.11 ”缓存 一 致 性 实现 实际 案例 


前 文中 基本 是 基于 目前 最 新 的 互联 形式 ， 也 就 是 
片 外 或 者 片 内 多 级 交换 网 络 /Ring 来 介绍 CC 的 基本 流 
程 。 本 节 中 基于 一 些 实际 的 产品 ， 分 别 介绍 一 下 在 独 
立 北桥 时 代 、 点 对 点 直 连 网 络 时 代 以 及 基于 外 部 路 由 
器 的 更 大 规模 网 络 时 代 的 多 CPU 系统 的 缓存 一 致 性 实 
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现 机 制 。 图 6-181 为 BNB 桥 的 架构 示意 图 。Intel 5000 平 台 
FZ RIL о `` 0 2 
6.9.11.1 Intel Blackfordjt 桥 CC 实现 реон teas pe 


工作 站 ， 但 是 其 仍然 支持 目录 过 滤 ， 作 为 可 选项 ， 在 

Intel Blackford North Bridge (ВМВ) 是 Intel 5000 BIOS 中 可 Enable 之 。BNB 片 内 针对 每 个 CPU 各 准备 了 
CPU 平 台 ( 对 应 Intel 5100/5300 酷 害 2 CPU)》 配 套 的 。 8MB 容 量 的 追踪 目录 存储 空间 (图 中 的 每 个 Interleave 
独立 北桥 芯片 。 关 于 北桥 的 作用 在 本 章 前 文中 已 经 初 。 分 片 为 SMB) ， 共 16MB〔 两 个 分 片 》。 为 了 加 速 目 
步 介绍 过 ， 可 以 回顾 一 下 。 这 里 着 重 介绍 北桥 在 参与 。 录 查 找 ， 每 个 分 片 使 用 了 16 路 组 关联 的 方式 与 主 存 映 
CC 方面 的 具体 作用 和 机 制 。 射 。 每 条 记录 中 包含 4 段 内 容 ， 一 份 ECC 校 验 ， 一 份 
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图 6-181 Intel Blackford 北 桥架 构 示意 图 


状态 位 (1 位 ， 表 示 E 或 M 态 ) ， 一 份 Presence Vector 
向 量 (2 位 》 以 及 Tag 地 址 段 。 

每 当 某 个 CPU 核心 读 不 命中 缓存 从 而 被 透 传 到 北 
桥 时 ，Coherency Engine 在 发 送 读 命令 给 RAM 控 制 器 
的 同时 ， 通 过 Snoop Filter 模 块 查找 目录 看 是 否 命 中 : 
如 果 不 命 中 ， 说 明 另 一 颗 CPU 缓 存 内 不 存在 该 地 址 的 
内 容 ， 则 直接 向 发 起 者 核心 的 LLC 控 制 器 返回 RAM 主 
存 中 的 数据 副本 ; 如 果 命 中 了 目录 中 某 条 目 ， 则 根据 
该 条 目 PV Table 中 对 应 的 B0 (BUS0) 和 B1 (BUS1) 
位 判断 该 行 在 哪个 BUS 后 面 的 CPU 里 存在 副本 ， 而 
且 该 副本 在 该 CPU 内 是 否 处 于 E 或 者 M 状 态 。 如 果 在 
另 一 颗 CPU 内 存在 状态 为 E/M 的 副本 ， 则 向 其 发 送 
请 求 ， 让 其 将 该 行 写 回 RAM 主 存 ， 同 时 Coherency 
Data Manager 将 该 数据 发 送 给 请 求 者 ， 并 且 Coherency 
Engine 将 目录 中 该 条 目的 E/M 状 态 位 清 零 ， 并 将 BO 和 
B1 位 都 改 为 1， 此 时 便 表示 该 行 状 态 为 S 态 (这 样 就 不 
用 把 Status 字 段 改 为 3 位 了 ， 节 省 了 1 位 ) 。 


为 了 使 得 读 操作 尽量 少 地 麻烦 北桥 ，CPU 内 部 
的 缓存 可 以 保存 对 应 MESI 状 态 位 ， 并 与 目录 中 的 
状态 保持 一 致 。 对 于 那些 不 在 CPU 内 部 缓存 存储 状 
态 位 的 设计 ， 每 一 笔 操 作 都 需要 访问 目录 ， 这 样 做 
会 引起 更 高 的 访问 时 延 。 由 于 目录 访问 所 引发 的 访 
问 时 延 被 称 为 间接 时 延 ( indirect latency ) 。 


当 某 个 CPU 假设 为 CPU 0) 发 出 写 请 求 时 ， 如 
果 缓 存 内 该 行 的 状态 位 不 是 M 态 ， 则 该 写 信号 必须 被 
传递 到 北桥 ， 北 桥 通过 判断 目录 中 对 应 的 状态 位 来 生 
成 后 续 动作 。 比 如 如 果 该 行 在 CPU 0 内 为 S 态 ， 则 CPU 
0 会 将 该 写 信号 传递 给 北桥 ， 北 桥 需要 对 B1 总 线 后 的 
CPU 1 发 起 作废 探 询 ，CPU 1 收 到 探 询 后 将 该 行 状态 
设置 为 1， 北桥 也 在 目录 中 将 CPU 1 中 的 该 行 Presence 
位 设置 为 0。 


6.9.11.2 AMD Opteron 800 平 台 CC 实 现 


我 们 先 来 回顾 一 下 6.4.2.4 节 中 介绍 过 的 AMD 
Opteron 平 台 的 北桥 架构 ， 如 图 6-182 所 示 。 该 北桥 直 
接 被 集成 到 CPU 的 内 部 ， 而 并 非 外 部 独立 芯片 。 

АМР” Opteron 800 芯 片 在 片 内 多 核心 之 间 采 用 
MOESI 协 议 过 滤 ， 在 片 间 并 没有 使 用 目录 过 滤 ， 而 是 
采用 了 全 广播 方式 。 所 有 探 询 由 Home 节 点 发 起 ， 所 
有 访 存 请 求 CC 流程 由 Home 节 点 代理 执行 。 

图 6-183 给 出 了 一 个 读 访 存 请 求 的 例子 ， 该 例 
中 P3 (Processor3) 节点 发 起 读 访 存 请 求 ， 所 请 求 
的 地 址 位 于 P0 节 点 处 的 RAM 中 ， 该 过 程 的 典型 步骤 
如 下 。 

(1) P3 内 部 某 个 核心 的 访 存 请 求 在 本 地 缓存 未 
命中 之 后 ， 其 CA 会 将 访 存 请 求 发 送 到 SRQ (System 
Request Queue) 处 理 ，SRQ 通 过 查找 MAP 表 得 出 对 
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应 的 访 存 地址 位 于 哪个 范围 ， 假 设 本 例 中 该 地 址 位 于 
P0 的 RAM 中 ， 然 后 SRQ 通 过 查询 Crossbar 的 路 由 表 ， 
得 知 发 向 PO 节点 的 流量 要 从 哪个 端口 转发 (假设 本 
例 中 到 达 P0 的 路 由 的 下 一 跳 是 P2) ， 然 后 通过 控制 
Crossbar 电 路 将 该 读 访 存 请 求 (RD) 发 送 到 连接 P2 的 
HT 输出 端口 。 

(2) P2 收 到 该 消息 之 后 ， 通 过 解析 目的 地 址 发 
现 是 发 给 P0 的 ， 则 通过 其 路 由 表 查 询 到 P0 连 接 到 HT 
输出 端口 从 而 通过 该 端口 将 消息 转发 给 P0。 

(3) P0 的 XBAR 认 领 该 消息 并 根据 消息 类 型 判 
断 应 该 转发 到 XBAR 上 连接 的 对 应 的 模块 ， 这 里 是 
内 存 控制 器 MCT 模 块 。MCT 认 领 该 消息 之 后 做 了 两 
件 事 : 向 DDR-RAM 控 制 器 (DCT) 发 出 针对 所 请 求 
地 址 的 读 操作 ， 该 请 求 会 进入 MCQ 然 后 发 送 到 DCT 
处 理 ;， 同 时，P0 的 MCT 向 自己 、P1 和 P2 节 点 发 出 
Broadcast Probe (BP) 探 询 广播 〈 该 北桥 并 未 采用 目 
录 过 滤 ) ， 该 请 求 会 被 路 由 到 各 个 节点 的 SRI (System 
Request Interface) ， 然 后 进入 SRQ 从 而 发 送 给 核心 的 
HA 处 理 。 由 于 一 个 CPU 节 点 上 可 能 存在 多 个 核心 ， 所 
以 SRI 需 要 将 探 询 消息 同时 发 送 给 每 个 核心 的 CA， 并 
等 待 每 个 CA 的 查询 结果 ， 然 后 汇总 ， 比 如 ， 如 果 都 不 
命中 ， 则 SRI 汇 总 出 一 条 未 命中 消息 ， 如 果 某 个 或 者 多 
个 核心 都 命中 ， 则 SRI 汇 总 出 一 条 Read Response (RP) 
消息 发 送 给 P3。 

(4) 接 下 来 会 并 行 发 生 三 件 事 。 第 一 ，P1 (也 
可 以 由 P2 转 发 ， 具 体 需要 根据 所 选择 的 广播 路 径 算 
法 决定 ) 需要 转发 来 自 P0 的 BP 广播 给 P3， 这 里 可 能 
有 点 迷惑 ，P3 既 然 发 出 了 RD 请 求 ， 那 不 就 是 说 P3 
的 缓存 中 不 包含 该 地 址 的 数据 么 ? 非 也 ，P3 包 含 多 
个 核心 ，RD 请 求 只 是 某 个 核心 发 出 的 ， 只 说 明 未 命 
中 该 核心 的 LIUL2， 而 AMD Opteron CPU 的 LLC 都 是 
Exclusive 模 式 ， 并 且 不 包含 该 节点 内 的 追踪 目录 ， 
所 以 CA 也 拿 不 定 主意 ， 才 会 发 出 RD 请 求 给 Home 节 
点 。Home 节 点 一 视 同 仁 ， 向 所 有 节点 发 送 BP， 也 包 
括 P3 节 点 (Source A) 本 身 。 第 二 ，P0 的 MCT 将 
RAM 中 对 应 该 地 址 的 数据 返回 给 P0。 第 三 ， 各 个 节 
点 (包括 P3 自 己 ) 各 自 返回 探 询 应 答 消息 给 P3〔 而 不 
是 P0) 以 表明 自己 缓存 内 是 否 存在 该 地 址 的 副本 ， 如 
果 存 在 则 直接 发 送 Read Response (RP) 而 不 是 Probe 
Response，RP 中 包含 了 该 地 址 的 数据 副本 内 容 。 对 于 
了 0 节点 ， 如 果 缓 存 内 存在 该 地 址 副本 ， 则 也 返回 RP 给 
了 P3， 和 否则 返回 之 前 从 RAM 中 读 出 的 数据 给 P3 。 

(5) RAM 副 本 先 从 P0 被 转发 到 P2， 因 为 该 例 中 
路 由 表 里 走 的 就 是 这 条 路 。 

(6) RAM 副 本 再 从 P2 被 转发 到 P0。 

(7) P3 的 判断 逻辑 比较 简单 ， 针 对 一 个 或 者 多 
个 节点 发 送 过 来 的 数据 副本 ， 如 果 只 有 P0 反 馈 § 了 〈 实 
际 上 PO 至 少 会 反馈 一 个 数据 副本 ， 也 就 是 RAM 中 的 
副本 ， 不 管 缓存 是 否 命中 ) ， 不 管 是 从 P0 内 部 缓存 
返回 的 数据 ， 还 是 从 P0 处 DRAM 返 回 的 数据 ，P3 都 
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会 判断 出 当前 地 址 的 最 新 副本 在 P0 中 ，P0 发 送 的 数 
据 有 效 ， 如 果 多 个 节点 同时 反馈 数据 副本 ， 则 P3 会 抛 
弃 P0 发 来 的 RAM 副 本 ， 因 为 此 时 RAM 副 本 可 能 不 是 
最 新 的 ， 只 有 处 于 O+S、E、M 和 S 态 的 副本 才 会 被 发 
出 ， 如 果 有 多 个 核心 /节点 针对 该 地 址 拥有 S 态 的 多 份 
副本 ， 那 么 这 些 副本 的 内 容 是 一 样 的 而 且 与 RAM 副 本 
一 致 ， 但 是 0、E、M 态 的 缓存 行 只 在 一 个 核心 上 有 副 
本 ， 所 以 P3 只 会 收 到 一 份 副本 ， 外 加 一 份 不 可 避免 会 
被 抛弃 的 RAM 副 本 。 

(8) 成 功 得 到 数据 之 后 ，P3 向 Home 节 点 也 就 是 
P0 发 出 Source Done (SD) 消息 以 告知 PO 本 次 请 求 处 
理 结束 。 

上 述 是 读 操作 的 流程 ， 对 于 写 操作 ， 过 程 类 似 ， 
区 别 是 核心 内 的 缓存 控制 器 会 将 写 信号 发 送 给 Home 
节点 ， 后 者 则 发 送 BP 给 所 有 节点 ， 拥 有 最 新 副本 的 
节点 将 最 新 的 缓存 行 发 送 给 Source 节 点 (因为 Source 
节点 可 能 只 是 写 入 该 行 的 某 个 部 分 ) ， 同 时 作废 自己 
的 该 行 副本 。Source 节 点 收 到 最 新 的 缓存 行 之 后 将 自 
己 要 写 入 的 部 分 融入 后 保存 在 本 地 缓存 中 ， 在 上 述 作 
废 动作 完成 之 后 ，Home 节 点 向 Source 节 点 发 送 Target 
Done (TD) 消息 。 


6.9.11.3 北桥 与 NC ( Node Controller ) 


目前 Intel 的 CPU 每 一 路 只 出 4 条 QPI 链 路 ， 如 果 
所 有 4 条 链 路 都 用 作 CPU 之 间 互 联 而 且 任意 两 个 CPU 
之 间 最 多 经 过 一 跳 的 话 ， 这 样 最 多 只 能 有 8 路 CPU 用 
QPI 直 连 ，CPU 之 间 的 连 线 在 三 维 空间 上 形成 一 个 立 
方 体 ， 立 方 体 8 个 顶点 各 代表 一 个 CPU， 每 个 顶点 与 
其 他 4 个 顶点 直 连 。 当 然 如 果 组 成 Fall Mesh 网 格 也 没 问 
题 ， 网 格 中 每 个 节点 需要 东西 南北 4 个 方向 的 链 路 各 
一 条 即 可 ， 但 是 网 格 虽然 大 大 增加 了 扩展 性 ， 却 不 


图 6-183 AMD Opteron 800 芯 片 CC 流 程 示意 图 


能 保证 任意 两 个 CPU 之 间 一 定 只 有 一 跳 ， 最 差 的 结 
果 可 能 有 N 跳 ， 这 最 大 的 N 跳 学 术 上 被 称 为 该 Mesh 
网 格 的 直径 。 但 是 ， 扩 展 性 增强 后 的 代价 ， 就 是 时 延 
的 增加 《〈 跳 数 增多 ) 和 不 可 控 ， 这 就 意味 着 在 这 些 节 
点 之 间 共享 内 存 地 址 空间 的 可 行 性 越 来 越 小 ， 不 得 
不 转 为 其 他 体系 结构 ， 比 如 MPP (Massive Parallel 
Processing， 更 大 规模 的 CPU 之 间 不 共享 内 存 的 互联 
在 一 起 ) 。 

为 了 保持 通用 性 ， 商 用 计算 机 依然 期 望 更 大 范 
围 的 共享 内 存 系统 。IBM Power 系 列 CPU 其 互联 链 路 
数量 要 多 一 些 ，Power7 是 每 个 CPU 出 5 条 ，Power8 则 
是 6 条 。 正 如 本 书 前 文 所 述 ， 这 种 方式 被 称 为 无 黏合 
(glueless) 直 连 方式 ， 如 图 6-184 所 示 。 

然而 ，Power 系 列 一 向 以 高 规格 著称 ， 并 不 是 所 
有 CPU 体系 都 走 上 这 条 路 的 。 其 他 一 些 CPU 体 系 结构 
几乎 都 走 上 了 分 布 式 交 换 + 路 由 结合 的 道路 。PC 之 间 
都 希望 在 一 个 大 的 交换 网 络 内 直接 点 对 点 交换 ， 但 是 
规模 增加 以 后 ， 物 理 上 是 做 不 到 成 千 上 万 台 机 器 在 一 
个 交换 芯片 上 直接 交换 的 ， 对 应 的 做 法 是 采用 路 由 器 
将 几 个 交换 网 络 黏合 起 来 ， 然 后 用 IP 地 址 人 为 地 割 开 
不 同 的 IP 子 网 ， 每 个 交换 网 络 将 发 向 对 应 子 网 的 流量 
发 送 给 路 由 器 ， 路 由 器 再 将 流量 转发 到 目标 子 网 ， 这 
样 就 可 以 避免 同样 多 的 机 器 在 一 个 大 网 中 各 自 两 两 交 
换 导 致 的 高 成 本 和 开销 ， 尤 其 是 广播 开销 ， 同 时 增加 
了 可 管理 性 ， 比 如 在 路 由 器 上 做 一 些 策略 ， 可 以 让 某 
些 机 器 不 能 相互 通信 等 。 

CPU 之 间 的 互联 ， 与 PC 机 之 间 的 互联 是 一 个 道 
理 ， 节 点 数量 太 多 ， 就 得 考虑 使 用 黏合 方式 在 多 个 子 
网 之 间 路 由 和 优化 通信 流量 ， 那 么 ， 也 就 需要 一 个 路 
由 器 的 角色 来 将 多 个 CPU 网 黏合 起 来 ， 这 个 路 由 器 被 
称 为 节点 控制 器 (node controller, МС) ， 其 物理 形 
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态 就 是 一 颗 芯片 。 

只 有 规模 较 大 的 ccNUMA 系 统 中 才 会 出 现 NC 的 
身影 ， 典 型 的 比如 16 路 /32 路 NUMA 服 务 器 ， 国 内 某 
厂商 还 使 用 了 两 层 路 由 器 ， 产 品 细节 详 见 6.6.1 节 。 有 
些 8 路 CPU 的 服务 器 系统 也 使 用 了 NC。NC 的 作用 不 仅 
是 用 于 扩展 更 多 的 CPU， 其 一 个 更 大 的 作用 ， 就 类 似 
于 早期 以 太 网 体系 中 的 网 桥 的 作用 ， 通 过 记录 网 桥 两 
边 的 MAC 表 来 隔离 不 必要 的 广播 转发 ， 增 强 性 能 。 
多 CPU 也 组 成 了 一 个 网 络 ，NC 便 是 这 个 网 络 中 的 网 
桥 ， 也 就 是 其 还 可 以 起 到 嗅 探 过 滤器 的 作用 ， 其 本 质 
上 属于 一 种 In-Network CC Agent with Filter。 当 然 ，8 
路 CPU 系统 内 使 用 NC， 其 成 本 也 是 相对 较 高 的 ， 所 
以 只 在 一 些 高 端 品 牌 服务 器 中 出 现 。 


6.9.11.4 Horus NC 实 现 


Horus 是 Newisys 公 司 专门 为 AMD Opteron Magny- 
Cours 平 台 打造 的 一 款 NC。Opteron Magny-Cours 平 台 
CPU 相对 于 Opteron 800 平 台 来 讲 在 CC 方面 增加 了 全 局 
目录 ， 其 被 存放 在 6MB LLC 中 ， 占 用 1MB 空 间 。 如 图 
6-185 所 示 ， 在 MCT (Memory Controller) 旁边 增加 了 
一 个 过 滤器 (HT Assisted Probe Filter) ， 也 就 是 HA 的 
角色 ， 所 以 其 能 够 实现 源 探 询 过 滤 了 。 

该 CPU 芯片 内 区 了 4 条 HT 互联 链 路 ， 与 Intel QPI 
一 致 ， 后 者 也 是 每 CPU 出 4 条 。 如 果 采 用 无 黏合 互联 
方式 ， 则 在 保证 跳 数 不 多 的 前 提 下 ， 一 般 可 互联 8 路 
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图 6-185 Magny-Cours 平 台 CC 目录 


要 想 扩展 到 更 大 规模 的 节点 数量 ， 就 得 使 用 NC 
来 做 黏合 。 图 6-186 所 示 为 Horus NC 加 入 之 后 的 系统 
连接 拓扑 。Horus 也 输出 4 条 HT 链 路 ， 分 别 和 4 颗 CPU 
连接 ，4 颗 CPU 和 一 颗 NC 组 成 一 个 逻辑 单位 ，Quad， 
4 人 小 队 。 多 个 这 样 的 单元 之 间 可 以 通过 Horus 芯 片 提 
供 的 外 连 链 路 以 各 种 不 同 的 网 络 拓扑 连接 起 来 ， 从 而 
组 成 单 Quad (4 路 ) 、 双 Quad (8 路 ) 、 三 Quad (12 
路 ) 、 四 Quad (16 路 ) 、 八 Quad (32 路 ) 的 ccNUMA 
系统 。 图 中 右 侧 所 示 的 拓扑 中 就 包括 了 2D Torus、P2P 
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图 6-186 ”使 用 NC 来 黏合 多 个 CPU 子 网 


直 连 ，Ring 在 内 的 三 种 二 级 拓扑 。Horus 芯 片 的 外 连 
链 路 采用 的 是 标准 的 Infiniband 通 道 。 左 图 下 方 所 示 
的 SP 为 Service Processor， 泛 指 BMC 管 理 模块 ， 由 于 
BMC 掌 管 整个 服务 器 的 电源 、 配 置 及 监控 ， 所 以 其 会 
使 用 各 种 信号 通道 与 多 数 部 件 相连 ，BMC 前 文中 也 介 
绍 过 。 


要 理解 ，NC 内 侧 与 CPU 互联 的 通道 必须 遵循 
CPU 一 侧 的 标准 ， 比 如 HT/QPI 等 。NC 之 间 的 互 
联 协议 就 比较 复杂 了 ， 并 不 一 定 要 像 Horus 一 样 使 
用 IB ， 完 全 可 以 是 其 他 任何 符合 条 件 的 标准 链 路 
或 者 私有 链 路 。 实 际 上 ，Heorus 使 用 IB 也 只 是 封装 
了 AMD 制 定 的 协议 (НАС HT 协议 ，High Node 
Count HT) 。 这 与 大 家 最 熟悉 的 IP 网 络 道理 是 一 
样 的 ， 以 太 网 封装 的 人 P 包 经 过 路 由 器 之 后 可 能 被 转 
换 为 其 他 链 路 帧 格式 ,但 是 封装 的 同样 是 IP 包 。 当 
然 ，NC 上 行 链 路 也 可 以 是 以 太 网 ， 我 相信 在 共享 
内 存 系 统 里 暂时 没 人 这 么 干 ， 因 为 以 太 网 丢 包 不 会 
告诉 你 。 


CPU 看 NC， 就 如 同 PC 机 看 路 由 器 一 样 ， 看 到 的 
就 是 一 个 网 关 的 角色 ，NC 向 内 与 CPU 之 间 的 互联 通 
道 保 持 一 致 ， 也 有 自己 的 链 路 地 址 。 也 正如 在 PC 上 
配置 网 关 IP 地 址 一 样 ，CPU 内 也 需要 使 用 相应 寄存 器 
( 见 上 文 的 MAP 表 ) 来 保存 内 存 地 址 的 路 由 映射 ， 比 
如 ， 某 段 地 址 范围 及 其 Home 节 点 的 ID 之 间 的 映射 记 
录 ，Crossbar 路 由 表 中 则 保存 了 节点 ID 与 Crossbar 端 口 
号 之 间 的 映射 关系 ， 经 过 这 两 次 映射 便 可 以 将 针对 某 
个 地 址 的 请 求 从 对 应 的 端口 发 送出 去 。 

这 些 路 由 表 都 是 依靠 BIOS 来 设置 的 ， 也 就 
是 主板 三 商会 根据 自己 的 设计 〈 比 如 每 个 CPU 最 
大 支持 多 少 容量 的 DRAM) ， 将 这 些 信息 写 死 在 
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BIOS 里 。 系 统 初始 化 时 ，BIOS 里 的 初始 化 代码 会 
将 对 应 的 路 由 信息 写 入 到 对 应 寄存 器 里 。 对 于 一 
个 Quad 来 讲 ， 其 他 Quad 里 内 存 地 址 范围 的 路 由 出 
口 ， 便 是 本 地 的 NC 了 。NC 上 也 需要 被 配置 好 对 应 
的 路 由 。 

图 6-187 为 该 NC 作用 流程 原理 示意 图 ， 其 中 各 个 
角色 的 说 明 见 表 6-2。 

表 6-2 Horus NC 体系 各 角色 说 明 


| Rq | 请 求 ( 读 、 写 、Probe Write、 作 废 等 ) 
| L | Local, 本 地 Quad 中 的 其 他 CPU 芯片 


Р рое, DER _ _ 
H Hon NC — 


如 图 6-187 所 示 ， 在 一 个 多 Quad 组 成 的 NUMA 系 
统 中 ， 某 CPU 核心 发 出 一 个 访 存 请 求 ， 未 命中 缓存 ， 
其 CA 控制 器 会 将 请 求 发 送 到 SRI ( 见 上 文 ) 。SRI 通 
过 查询 MAP 表 得 知 该 地 址 所 落 入 的 Home 节 点 的 ID， 
本 例 中 该 地 址 对 应 的 Home 节 点 恰好 就 是 该 CPU 自 
身 ， 则 SRI 通 过 查询 Crossbar 路 由 表 ， 将 请 求 发 送 给 本 
地 MC (其 实 就 是 指 代 HA， 下 文中 都 统一 用 MC) ， 
假设 MC 上 没有 启用 目录 过 滤 功 能 ， 则 MC 需 要 向 所 
有 其 他 CPU 发 出 探 询 广播 (P1) ， 其 被 各 自 同时 发 送 
到 本 Quad 内 其 他 三 个 CPU (L) 以 及 Horus МС (НИЙ 
Жә ; 与 此 同时 为 了 节约 时 间 ，MC 从 RAM 中 将 对 应 
副本 也 读 取出 来 ， 形 成 RR 消息 传递 给 请 求 者 CPU。 
Quad 内 其 他 三 个 CPU 查 询 了 自己 的 缓存 之 后 ， 如 果 有 
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图 6-187 Home 节 点 恰好 就 是 请 求 节点 
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最 新 的 副本 ， 则 也 形成 RR 消息 发 送 给 请 求 者 ; 如果 
没有 对 应 副本 ， 则 生成 对 应 的 PR 消息 传递 给 请 求 者 ， 
这 是 本 地 发 生 的 事情 。 

在 远程 ，H1 桥 片 将 P1 探 询 封 装 成 外 置 链 路 的 数 
据 帧 (P2) ， 然 后 向 所 有 其 他 桥 片 〈 图 中 的 H2 泛 指 
其 他 Quad 内 的 NC 桥 片 ) 广播。 每 个 桥 片 收 到 消息 之 
后 ， 便 向 自己 Quad 内 的 所 有 CPU (L) 转发 此 探 询 
消息 (P3) 。 这 里 从 P1 变 成 P3， 是 因为 两 个 Quad 内 
的 节点 ID 可 能 有 重 名 冲突 〈 比 如 Quad0 内 的 CPU0 的 
ID 是 0， 而 Quad1 内 的 CPU0 的 ID 可 能 也 是 0) 。 因 为 
Quad 之 间 是 互 不 感知 对 方 的 ， 如 果 一 个 Quad 发 出 的 
了 1 不 加 更 改 直 接 发 送 到 其 他 Quad， 该 消息 的 源 和 目 
的 地 址 将 不 能 在 目标 Quad 内 继续 使 用 ， 所 以 H2 需 要 
重新 设 定 该 消息 的 源 地 址 为 H2 自 己 ， 目 的 地 址 为 各 
CPU 节点 的 ID， 然 后 发 出 对 应 数量 的 P3 消 息 给 目标 
Quad 内 的 CPU (L) 。 目 标 Quad 内 的 CPU 各 自 查 询 缓 
存 是 否 命中 ， 执 行 与 源 Quad 内 CPU 相同 的 动作 ， 有 
数据 副本 则 发 送 RR， 无 数据 副本 则 发 送 PR， 给 目标 
Quad 的 桥 片 〈(H3) ，H2 与 H3 是 同一 个 桥 片 ， 只 不 过 
处 于 不 同 状态 ，H2 是 发 送 态 ， 发 送 完 PR 之 后 成 为 接 
收 态 。H3 会 执行 一 步 比较 特殊 的 动作 ， 就 是 将 目标 
Quad 内 的 所 有 PR 进行 汇总 ， 形 成 一 条 PR， 返 回 给 源 
Quad 内 桥 片 (H4， 与 H1 是 同一 个 桥 片 的 不 同 状态 阶 
段 ) ， 后 者 再 将 消息 传递 给 请 求 CPU。 请 求 者 CPU 
收集 到 所 有 应 答 或 者 数据 副本 之 后 ， 保 留 最 新 的 副 
Ж 〈CPU 返 回 的 RR 一 定 比 MC 返 回 的 RR 新 ， 如 果 所 
有 CPU 都 返回 不 携带 数据 副本 的 PR 则 MC 返回 的 RR 
一 定 是 最 新 副本 ) ， 然 后 发 送 SD 消 息 通知 MC， 完 成 
本 次 CC。 

图 6-188 的 场景 要 复杂 一 些 ， 所 请 求 的 地 址 对 应 
的 Home 节 点 位 于 其 他 Quad， 但 是 基本 流程 都 是 类 似 
的 。 请 求 者 CPU 针对 某 地 址 发 出 请 求 ， 该 请 求 未 命中 
缓存 ， 进 入 SRI。SRI 通 过 查询 地 址 映射 表 路 由 表 ， 
发 现 该 地 址 的 Home 节 点 是 本 Quad 内 的 NC 桥 ， 所 以 
通过 HT 链 路 将 请 求 发 送 给 NC 桥 (H5) ，H5 上 也 保 
存 有 地 址 映射 表 ， 它 发 现 该 地 址 在 桥 H6 所 在 的 Quad 
内 ， 于 是 通过 外 部 链 路 将 请 求 (Rql， 需 要 改变 源 和 
目的 地 址 ) 发 送 给 H6。 后 者 收 到 消息 后 ， 查 询 地 址 
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表 和 路 由 表 ， 将 请 求 〈 需 要 做 地 址 翻译 映射 ， 改 变 
源 和 目的 地 址 ， 生 成 Rq2) 发 送 给 Home Quad 内 对 应 
CPU 节 点 上 的 MC 处 理 。 该 MC 收 到 这 笔 请 求 之 后 ， 从 
RAM 中 读 取 对 应 的 数据 副本 然后 用 RR 的 方式 返回 给 
Home Quad 桥 (H9 状 态 ) ，H9 再 返回 给 Request Quad 
的 桥 (H10 状 态 ) ， 同 时 Home Quad 的 MC 开始 广播 探 
询 消息 СР) 给 所 有 Home Quad 内 的 节点 ， 包 括 CPU 
(L) ЖИ (H7) 。H7 收 到 探 询 广播 之 后 ， 必 须 转发 
到 系统 内 所 有 桥 片 上 继续 广播 ， 所 以 它 将 广播 转发 给 
其 他 所 有 Quad， 也 包括 请 求 者 所 在 的 Quad， 然 后 所 
有 桥 开始 在 对 应 的 各 自 Quad 内 转发 探 询 广播 。 所 有 
的 CPU 返回 PR 消息 给 各 自 的 桥 ， 后 者 汇总 消息 然后 
发 送 给 Home Quad 的 桥 (H9 状 态 ) ，H9 再 将 消息 发 
送 给 Request Quad 桥 (H10 状 态 ) ，H10 再 将 PR 以 及 
RR 返回 给 请 求 者 CPU， 后 者 做 汇总 判断 之 后 拿 到 最 
新 数据 然后 发 送 SD 给 自己 的 桥 (Hl11 状 态 ) 。 此 时 尚 
未 结束 ， 因 为 Home Quad 域 内 的 H6 态 桥 曾 经 向 其 内 
部 Home 节 点 CPU 上 的 MC 发 送 过 Rq 请 求 ， 所 以 H6 欠 
着 该 MC 一 个 SD， 因 而 当 请 求 者 CPU 向 Hl1 态 桥 发 送 
SD (SD) 之 后 ，H11 桥 应 当 向 Home Quad 的 桥 〈 此 时 
是 H12 态 ) 也 发 送 SD (SD1) 通知 表明 该 交易 结束 ， 
H12 收 到 之 后 则 向 之 前 的 MC 发 送 SD (SD2) ， 最 终 
完成 整个 请 求 。 

然而 ，NC 并 不 只 是 完成 子 网 路 由 地 址 转换 这 么 
简单 的 动作 ， 其 有 技术 含量 的 地 方 ， 是 针对 NUMA 
体系 的 优化 ， 主 要 体现 在 增加 了 过 滤 目 录 ， 以 及 增加 
了 远 端 数据 的 本 地 缓存 ， 其 角色 和 位 置 相当 于 位 网 络 
路 径 上 的 LLC/L4 缓 存 了 。 由 于 NC 连接 了 多 个 CPU 子 
网 ， 可 以 接收 所 有 子 网 的 探 询 广播 ， 所 以 它 可 以 针 
对 每 个 子 网 记录 过 滤 目 录 ， 经 过 充分 预 热 之 后 就 可 
以 有 效 的 过 滤 掉 不 必要 的 广播 了 。 从 图 6-186 中 可 以 
看 到 ，NC 上 也 挂 接 了 SDRAM， 目 录 容 量 较 大 ， 可 以 
被 放置 在 这 些 SDRAM 里 ， 远 端的 数据 缓存 也 可 以 放 
在 这 里 面 ， 当 然 也 可 以 放 到 片 内 的 更 高 速 的 SDRAM 
中 ， 甚 至 如 果 容 量 不 大 的 话 可 以 放 到 SRAM 中 ， 具 体 
看 最 终 设计 而 定 。6.6.1 节 中 可 以 看 到 对 应 的 NC 旁边 
也 挂 接 了 一 些 SDRAM。 

如 图 6-189 左 侧 所 示 ， 如 果 桥 H1 通 过 查询 目录 判 
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图 6-188 ”Home 节 点 与 请 求 节点 位 于 不 同 Quad 
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断 出 该 地 址 在 远 端 Quad 内 不 存在 副本 ， 那 么 就 根本 无 
须发 出 探 询 广 播 ， 而 直接 返回 PR 给 请 求 CPU 完 成 本 次 
操作 ， 省 掉 了 原本 需要 发 生 的 灰色 部 分 的 流程 ， 这 就 
大 大 增加 了 性 能 。 

由 于 将 大 量 的 Quad 黏 合 起 来 之 后 ， 消 息 和 数据 
在 这 么 大 一 张 网 络 里 穿行 ， 时 延 是 个 很 大 问题 ， 这 
也 正 是 目录 过 滤 变 得 必须 的 原因 。 然 而 ， 如 果 能 将 
请 求 有 效 地 终结 在 本 地 ， 那 么 不 管 网 络 多 大 ， 时 延 
都 不 是 问题 ， 想 做 到 这 一 点 就 必须 增加 缓存 。Horus 
桥 片 带 有 64MB 的 DRAM 作 为 远程 数据 的 本 地 缓存 
(Remote Data Cache, RDC) ， 当 本 地 节点 向 远程 
节点 发 起 读 请 求 之 后 ， 远 程 节点 返回 数据 ， 该 数据 
会 被 RDC 顺 手 存 一 份 ， 当 本 Quad 内 其 他 CPU 再 访问 
该 数据 而 未 缓存 命中 时 ，RDC 将 直接 返回 数据 。 另 
外 ， 当 本 地 缓存 控制 器 淘汰 出 缓存 行 的 时 候 ，RDC 
也 可 以 被 设计 作为 一 个 Victim Cache 的 角色 ， 对 应 的 
CA 可 以 将 淘汰 的 缓存 暂 存 在 这 里 。RDC 使 用 LRU 算 
法 淘汰 RDC 内 的 缓存 行 。 图 6-189 中 右 侧 所 示 为 使 用 
了 远 端 数据 的 本 地 缓存 (Remote Data Cache, RDC) 


图 6-189 ”加 入 目录 过 滤 以 及 远程 数据 本 地 缓存 之 后 的 效果 


之 后 的 效果 ， 如 果 请 求 命中 在 RDC， 则 根本 不 需要 向 

图 6-190 为 基于 Horu NC 桥 片 方案 的 系统 及 对 应 
的 主板 实物 图 。 可 以 回忆 一 下 本 章 前 文中 所 介绍 的 
一 些 带 有 NC 桥 的 服务 器 产品 ， 比 如 6.6.1 节 里 的 NC 和 
NR， 以 及 HP Supmerdome 主 机 里 的 NC 芯片 ， 这 两 者 
也 都 是 携带 RDC 缓 存 的 ， 前 者 使 用 DIMM 模 上 的 DDR 
RAM， 而 Superdome 使 用 典 入 到 NC 片 中 的 eDRAM。 
此 外 ，IBM 服 务 器 中 的 EXA 芯 片 也 是 一 款 NC， 其 不 
但 支持 过 滤 目 录 和 RDC 缓 存 ， 而 且 还 可 以 直接 将 自己 
的 SDRAM 空 间 融 入 系统 的 全 局 地 址 空间 中 。 
едит mm ss 
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图 6-190 Horus 桥 片 及 主板 实物 图 


本 书 前 文中 也 提 到 过 ， 不 管 是 QPIUHT 直 连 还 是 通 
过 NC 粘 连 ， 其 都 是 可 以 支持 硬 分 区 的 。Horus NC 桥 
同样 也 支持 硬 分 区 ， 如 图 6-191 所 示 ， 其 可 以 支持 灵 
活 粒 度 的 节点 分 区 ， 而 某 些 其 他 NC 桥 的 分 区 粒度 很 
大 ， 比 如 最 小 粒度 为 一 个 单 板 /Quad， 也 就 是 不 能 将 
Quad 内 的 节点 分 割 。 


图 6-191 基于 Horus 芯 片 的 硬 分 区 
NC， 其 本 质 上 属于 前 文中 介绍 的 In-Network СС 
的 范畴 。 图 6-192 为 Horus NC 内 部 的 模块 原理 图 ， 其 
中 包含 三 大 主 控 模 块 : 2 个 Remote Memory Protocal 
Engine (RMPE) 、2 个 Local Memory Protocol Engine 


RDC data array 


(LMPE) 以 及 1 个 Special Protocol Engine (SPE) 。 

这 些 Protocol Engine 的 硬件 构造 都 相同 的 ， 只 是 执行 
的 功能 不 同 ， 系 统 在 初始 化 时 ，BIOS 负 责 将 对 应 的 
PE 初始 化 成 上 述 三 种 PE 中 的 一 种 。LMPE 负 责 处 理 所 
有 本 Quad 内 节点 上 MC 发 送 的 探 询 以 及 访 存 请 求 ，CC 
过 滤 目 录 就 在 LMPE 中 保存 和 维护 。RMPE 负 责 处 理 
所 有 远程 节点 发 送 到 本 地 的 访 存 、 应 答 及 探 询 请 求 ， 

由 于 需要 抓 取 远程 返回 的 数据 副本 并 放 入 RDC， 所 以 
用 于 查询 是 否 命中 RDC 的 地 址 Tag 阵 列 以 及 访问 RDC 
的 RAM 控 制 器 在 RMPE 上 实现 。H2H 意 为 “Horus to 
Horus”。 各 个 PE 只 负责 控制 ， 实 际 数据 的 转发 是 在 
发 送 和 接收 端口 之 间 直 通 的 。 所 有 的 PE 引擎 都 是 流 
水 线 化 运作 ， 各 自 拥 有 32 队 列 深度 的 Pending Buffer 
队列 。 


6.9.11.5 SGI Origin 2000 NC 实 现 


SGI Origin 2000 是 20 世 纪 的 一 款 较为 经 典 的 大 规模 
ccNUMA 分 布 式 共享 内 存 系 统 ， 其 最 大 可 以 支持 512 个 
节点 (每 节点 2 颗 CPU) 通过 5D-Hypercube 网 络 拓扑 互 
联 ， 而 且 支 持 全 系统 内 的 缓存 一 致 性 ， 这 么 大 规模 的 
ccNUMA 系 统 ， 在 整个 计算 机 发 展 史 上 都 是 少见 的 。 

首先 来 看 一 下 其 所 使 用 的 网 络 路 由 器 的 体系 结 
构 。Origin2K 并 没有 将 节点 路 由 器 集成 到 CPU 或 者 
桥 片 中 ， 而 是 在 一 个 单独 的 板子 上 放置 了 多 片 路 由 
器 芯片 ， 其 芯片 代号 为 “SPIDER”， 意 即 织 网 者 ， 
形成 如 图 6-193 上 图 所 示 的 蜂 蛛 网 似 的 网 络 拓扑 。 下 
图 所 示 为 该 路 由 器 芯片 的 架构 示意 图 。 其 包含 6 个 端 
口 ， 其 中 两 个 端口 各 连接 一 个 节点 ， 剩 余 4 个 用 于 与 
其 他 路 由 器 互联 。 每 个 端口 模块 由 几 个 主要 部 件 组 
WÈ» SSD (Source Synchronous Driver， 同 步 发 送 器 ) 
和 SSR (Source Synchronous Receiver， 同 步 接收 器 ) 
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图 6-192 Horus NC 桥 内 部 架构 图 


的 作用 包括 链 路 协商 、 串 并 转换 、 锁 相等 于 最 底层 的 
数据 编码 、 传 送 及 信号 相关 的 功能 ; LLP (Link Layer 
Protocol) 的 作用 是 将 上 层 发 送 的 各 种 请 求 封装 成 数 
据 帧 ， 或 者 为 了 维持 链 路 控制 〈 比 如 拥塞 避免 、QoS 
等 而 自行 发 送 的 数据 ) ， 然 后 通过 SSD 发 送出 去 ， 
以 及 接收 SSR 收 到 的 消息 数据 帧 ， 并 负责 CRC 数 据 校 
验 。Message Control 模 块 担任 传输 层 的 角色 ， 在 这 个 
模块 中 会 实现 QoS 和 虚拟 通道 控制 以 及 路 由 控制 。 每 
个 物理 端口 中 包含 4 个 虚拟 通道 (VC) ， 或 者 说 队 
列 ， 由 Message Control 模 块 管理 。 
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图 6-193 ”SPIDER 节 点 路 由 器 

路 由 表 和 管理 模块 负责 对 整个 芯片 进行 配置 、 初 
始 化 以 及 路 由 表 的 生成 和 维护 ， 系 统 软 件 可 以 根据 规 
则 注入 路 由 条 目 ， 也 就 是 路 由 表 是 可 编程 的 。 仲 裁 模 
块 (Arbiter) 负责 控制 这 6 个 端口 之 间 的 数据 交换 ， 
控制 Crossbar 的 交换 电路 的 通 断 ， 以 及 负责 在 多 个 虚 
拟 通道 队列 中 选举 出 合适 的 数据 帧 进行 发 送 ， 从 而 将 
Crossbar 的 利用 率 提升 到 最 高 。 
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队 首 阻塞 和 虚拟 队列 /通道 > 


HoQ ( Head of Queue Blocking ) 的 意思 是 在 一 
个 交换 系统 中 ， 每 个 端口 都 积压 了 很 多 等 待 被 交换 
的 数据 帧 ， 但 是 如 果 某 个 排 在 队列 最 前 面 的 数据 帧 
由 于 其 目的 端口 正在 被 其 他 交换 操作 占用 ， 导 致 其 
必须 等 待 的 话 ， 那 么 该 队列 后 面 排 着 的 数据 帧 ， 即 
使 其 目的 端口 空闲， 那么 由 于 排 在 队列 前 面 的 数据 
帧 堵 住 了 整个 队列 不 让 路 ， 导 致 Crossbar 的 交换 资 
源 被 限制 ， 效 率 大 大 降低 。 解 决 办 法 很 简单 ， 在 每 
个 端口 ， 为 每 个 目标 端口 设置 一 个 单独 的 队列 ， 所 
有 欲 将 从 该 端口 发 出 的 数据 帧 ， 按 照 其 目标 端口 排 
入 对 应 的 队列 中 ， 仲 裁 模 块根 据 当 前 系统 资源 的 状 
态 ， 如 果 某 个 端口 没有 流量 流入 ,而 又 存在 以 该 端 
口 为 目标 端口 的 数据 帧 ， 且 Crossbar 内 部 有 足够 的 
交换 通路 时 ， 仲 裁 模块 便 从 对 应 队列 中 引出 一 个 
数据 帧 进行 交换 ， 这 样 就 可 以 保证 资源 的 最 高 利用 
率 。 但 是 这 种 做 法 有 个 缺点 ， 就 是 内 部 寄存 器 / 队 
列 占用 的 空间 太 大 ， 需 要 为 此 维护 的 队列 数量 为 
N* (N-1) ， 关 键 是 如 果 某 个 端口 长 期 没有 数据 包 
收发 ， 那 么 这 些 队列 就 是 浪费 。 为 此 ， 又 有 很 多 其 
他 设计 来 解决 这 个 问题 ， 比 如 ， 数 据 帧 不 加 区 分 地 
一 起 放 在 一 个 共享 队列 中 ， 但 是 使 用 链表 来 把 其 中 
属于 某 个 目标 端口 的 数据 帧 串 起 来 ， 只 记录 这 个 链 
表 ， 占 用 空间 就 少 很 多 ， 而 且 可 以 快速 查找 到 对 应 
的 数据 包 在 队列 中 的 位 置 从 而 将 其 提取 出 来 发 送 ， 
每 个 链表 也 就 描述 了 一 个 虚拟 队列 或 者 虚拟 通道 。 


图 6-194 给 出 了 传输 层 数 据 包 以 及 链 路 层 数据 帧 
的 格式 。 传 输 层 数据 包 封 装 了 应 用 层 发 出 的 Payload， 
也 就 是 图 中 的 Data 字 段 ，DestID 则 是 目标 节点 的 ID， 
长 度 9 位 ， 刚 好 表示 512 个 节点 ， 管 理 模块 会 初始 化 节 
点 ID 与 出 方向 端口 的 映射 关系 ， 也 就 是 路 由 表 ，Dir 
字段 意 为 Direction，4 位 ， 给 出 了 该 数据 包 应 该 从 路 
由 器 的 哪个 端口 转发 出 去 ， 比 如 路 由 器 0 发 给 路 由 器 
1 一 个 数据 包 ， 路 由 器 1 通过 判断 其 Dir 字 段 来 判断 从 
自己 的 哪个 端口 转发 出 去 ， 仅 当 采 用 源 路 由 时 该 字段 
才 有 用 ， 所 谓 源 路 由 就 是 可 以 由 源 端 来 控制 数据 包 怎 
么 走 。CC 字 段 用 于 Congestion Control 拥 塞 控制 ，Age 
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图 6-194 ”传输 层 数据 包 及 链 路 层 数据 帧 
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字段 用 于 控制 器 数据 帧 的 优先 级 ，8 位 共 256 级 ， 如 果 ” 中， 这些 具体 的 缓存 一 致 性 消息 属于 应 用 层 的 内 容 。 
Age 处 于 239 一 255 之 间 ， 则 表示 其 在 网 络 中 已 经 游荡 如 图 6-195 所 示 ， 整 个 系统 内 ， 每 个 节点 包含 2 
了 很 久 没 到 达 目的 地 了 ， 则 会 被 很 快 处 理 ， 随 着 路 由 。 颗 MIPS 架 构 的 R10000 CPU、 一 颗 NC 芯 片 〈 图 中 的 
跳 数 的 增加 ，Age 字 段 计 数 也 被 增加 。 链 路 层 帧 中 ， HUB) 以 及 一 对 RAM 内 存 ， 这 三 者 在 一 张 板 子 上 。 
Check bits 字 段 为 CRC 校 验 字 段 ，Ack 字 段 为 应 答 确 认 = NC 芯 片 出 两 股 信号 连接 到 中 板 ， 一 股 是 Origin2K 专 
字段 ，Seq.no 字 段 为 帧 序号 字段 ， 便 于 接收 方 按照 序 ”用 的 IO 链 路 一 一 XIO Link (并非 PCIE/PCI) , Origin 
号 将 数据 帧 重新 排序 。Data 字 段 为 Payload。Sideband < 提供 了 很 多 常用 的 XIO 接 口 的 适 配 卡 ， 比 如 FC、 以 太 
为 边 带 控制 位 字段 ， 用 于 流量 控制 。 各 种 缓存 一 致 ” 网 、SCSI 卡 等 ， 而 如 果 要 使 用 PCI 接 口 的 设备 ， 则 需 
性 消息 ， 比 如 WrtIvld、RdPrb 等 ， 被 封装 到 Data 字 段 ” 要 在 XBOW 交 换 芯 片 后 挂 接 一 个 XIO 转 PCI 的 桥 片 。 
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图 6-196 ”Origin2K 的 机 箱 及 节点 单 板 示 意图 


NC 的 另 一 路 通道 则 是 NUMA Link (也 称 Craylink， 
Cray 是 SGI 收 购 的 做 大 型 计算 机 体系 的 公司 ) ， 专 用 
于 CPU 之 间 的 互联 ， 这 路 通道 连接 到 Router 板 上 。 每 
个 中 板 上 有 两 片 板 载 的 Crossbar (XBOW) ， 以 及 两 
个 Router 模 位， 每 个 槽 位 各 插 一 块 Router 板 。Router 
板 上 就 是 一 堆 上 文中 所 述 的 SPIDER Router 芯 片 ， 每 
两 个 节点 接 入 一 片 SPIDER 芯 片 ， 这 些 芯 片 再 使 用 
5D-Hypercube 的 方式 互联 起 来 ， 多 个 Router 板 之 间 则 
使 用 前 置 接口 采用 专用 线 缆 按照 5D-Hypercube 方 式 级 
联 。 各 个 单 板 之 间 采 用 特殊 的 可 插 拔 连接 器 连接 。 

图 6-196 为 Origin2K 的 机 箱 和 节点 单 板 实物 的 示意 
图 。 图 中 右 侧 最 下 方 是 两 蜂 CPU， 其 上 是 NC 芯片 以 
及 用 于 存放 过 滤 目 录 的 RAM 内 存 条 。 再 往 上 是 供 CPU 
访问 的 RAM 主 存 。 

图 6-197 为 NC 桥 片 的 内 部 架构 示意 图 。 其 由 几 大 
部 分 组 成 ， 位 于 中 央 的 是 一 个 Crossbar 和 矩阵， 围绕 在 其 
旁边 的 是 4 个 模块 ， 分 别 为 PI (Processor Interface) 、 
MD (Memory&Directory) ‚ П (IO Interface) 以 及 NI 

(Network Interface) ， 所 有 模块 通过 Crossbar 交 换 数 

据 ，Crossbar 的 每 个 端口 使 用 FIFO 队 列 。 


Craylink 


IO 
Transl 


图 6-197 Origin2K NC 芯片 内 部 架构 图 
先 说 II。II 相 当 于 x86 体 系 里 的 PCIE 控 制 器 ， 负 


责 将 设备 驱动 封装 好 的 IO 请 求 /应 答 数据 包 从 RAM 主 
存 读 出 然后 发 送 到 对 应 的 设备 ， 以 及 将 设备 返回 的 数 


第 6 章 “多 处 理 器 微 体系 结构 一 一 多 核心 与 缓存 有 天 


据 写 入 RAM 主 存 并 发 出 中 断 信 号 。 其 中 BTE 为 Block 
Transfer Engine， 其 实 就 是 DMA 控 制 器 ， 有 A 和 B 两 
个 。IRB 为 1O Request Buffer， 其 作用 是 提供 一 个 缓 
冲 队 列 ， 供 缓存 一 致 性 协议 分 析 每 条 IO 请 求 是 否 需 
要 协议 一 致 性 逻辑 的 介入 和 处 理 。Protocol Table 就 
是 缓存 一 致 性 过 滤 目 录 。I/O Trans] 为 IJO Translation 
Module， 其 作用 是 将 设备 驱动 封装 好 的 IO 数据 包 再 
次 封装 成 底层 链 路 协议 所 要 求 的 格式 、 大 小 、 顺 序 和 
范式 等 。 经 过 处 理 之 后 的 数据 包 ， 经 链 路 接口 被 发 送 
出 去 。II 使 用 的 链 路 接口 与 上 文中 的 SPIDER 路 由 器 中 
的 链 路 接口 是 一 样 的。 

再 来 看 PI。PI 前 方 连接 的 是 CPU。 其 中 CRB 为 
Coherent Request Buffer， 其 作用 与 上 面 的 IRB 类 似 。 
Protocol Table 也 是 缓存 一 致 性 过 滤 目 录 。 


6.9.11.6 IBM PERCS 超 级 计算 机 中 的 NC 


再 来 看 MD。 缓 存 一 致 性 体系 里 的 Home 节 点 的 轴 
辑 ， 就 在 这 里 处 理 ， 也 有 对 应 的 过 滤 目 录 。 最 后 看 一 
下 NI，NI 中 的 PHY 与 Router 板 上 的 SPIDER 路 由 器 芯片 
连接 ， 形 成 多 个 节点 的 NUMA 系 统 。 

IBM PERCS 超 级 计算 机 基于 POWER7 CPU 构 建 ， 
每 4 个 POWER7 CPU 形成 紧 耦 合 的 ccNUMA 系 统 ， 
然后 通过 NC， 将 多 个 四 CPU 的 紧 耦 合 系统 黏合 起 
来 ， 形 成 一 个 松 耦 合 的 超级 计算 机 集群 。 图 6-198 为 
POWER7 CPU 内 部 框图 以 及 4CPU+1Hub 组 成 的 紧 耦 
合 NUMA 系 统 。 由 于 POWER7 CPU 芯片 提供 了 用 于 互 
联 的 高 速 通道 ， 所 以 即便 是 不 加 Hub 芯 片 (NC) 也 一 
样 可 组 成 NUMA。 但 是 PERCS 超 级 计算 机 可 以 有 成 千 
上 万 的 CPU， 所 以 需要 NC 芯片 。NC 与 4 个 CPU 之 间 使 
用 POWER7 Bus 互 联 (对 应 Intel 体 系 中 的 QPI) 。 

NC 芯 片 内 部 可 就 是 另 一 个 天 地 了 。 图 6-199 为 NC 
内 部 模块 示意 图 。 北 向 接口 为 与 4 个 CPU 的 互联 接口 ， 
共 4 条 链 路 ， 连 接 到 一 个 Crossbar (POWER7 Соћегепсу 
Bus) 上 ， 西 向 接口 有 7 条 与 北向 接口 同类 型 的 链 路 ， 
7 条 并 行 链 路 分 别 与 另外 7 个 NC 相 连 ， 这 样 8 个 系统 可 
以 实现 点 对 点 两 两 直 连 。NC 的 东 向 接口 为 PCIE， 可 连 
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图 6-198 POWER7 CPU 及 PERCS 系 统 内 的 最 小 耦合 单元 (АСРОНМС) 
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接 PCIE 设 备 。 南 向 接口 ， 首 先 通过 两 个 HFI (Host 
Fabric Interface) 控制 器 ， 连 接 到 ISR (Integrated 
Switch Router) ，ISR 是 一 个 56X56 的 Crossbar 交 换 
矩阵 ， 用 于 系统 间 的 流量 交换 ，ISR 南 向 分 别 出 24 
和 16 条 并 行 链 路 ， 连 接 到 其 他 NC 对 应 的 链 路 上 。 

HFI 模 块 扮演 的 角色 相当 于 一 个 特殊 的 网 络 
控制 器 〈 想 想 以 太 网 卡 的 作用 ) ， 其 前 端 通过 
POWER7 Bus 连 接 到 CPU (常见 以 太 网 卡通 过 PCIE 
接口 连接 到 CPU) ， 其 后 端 则 使 用 高 速 并 行 通道 连 
接 到 ISR〈 常 见 以 太 网 卡 的 后 端 则 是 以 太 网 链 路 连接 
到 以 太 网 交换 机 ) 。 程 序 若 想 通过 HFI 发 送 各 种 请 求 
消息 ， 比 如 内 存 访问 消息 ， 则 需要 通过 HFI 驱 动 来 进 
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行 ， 其 机 制 与 本 书 前 文中 蓝 色 基因 Q 芯 片 中 的 MU 驱 
动 层 序 的 机 制 类 似 ，MU 与 HFI 角 色 是 一 样 的 ， 不 再 
袭 述 。 几 乎 所 有 的 网 卡 ， 包 括 以 太 网 卡 、Ifiniband 
网 卡 和 存储 相关 的 网 卡 (FCE, SASE), UR 
РСТЕ Flash 卡 或 者 NVMe 标 准 的 PCIE Flash 卡 ， 都 
使 用 循环 队列 及 其 对 应 的 机 制 来 完成 IO 操作 。 

整个 PERCS 系 统 的 组 成 和 连接 方式 如 图 6-200 所 
示 。4 颗 POWER7 CPU+1 颗 NC 组 成 的 系统 被 称 为 一 个 
Quad POWER7 Module (QPM) ，8 个 QPM 被 置 入 一 
个 2 高 的 机 箱 中 (Drawer/Node) ， 这 8 个 QPM 之 间 
通过 NC 的 西向 的 7 条 链 路 (Local L-Link) 进行 点 对 
点 两 两 直 连 ， 连 接 并 不 需要 线 绕 ， 由 于 在 同一 个 2U 
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图 6-200 PERCS 系 统 物理 拓扑 连接 示意 图 


机 箱 Drawer 中 ， 可 以 在 主板 上 走 线 ， 成 本 较 低 。4 个 
DrawerNode 堆 琶 ， 组 成 一 个 Supernode， 在 Supernode 
之 内 的 4 个 Drawer 之 间 的 互联 ， 是 通过 Remote L-Link 
实现 的 ， 也 是 点 对 点 两 两 直 连 ， 连 线 物理 形态 是 外 置 
电缆 。 多 个 Supemode 之 间 ， 则 通过 D-Link 两 两 直 连 ， 
或 者 通过 独立 的 ISR 芯 片 级 联 ， 由 于 距离 较 远 ， 连 线 
物理 形态 则 是 光纤 。 整 个 系统 如 果 通 过 ISR 中 心路 由 
的 话 ， 可 以 最 多 连接 512 个 Supernode。 图 6-201 为 Node 
和 Supernode 的 物理 形态 图 。 

每 个 机 柜 可 以 放置 3 个 Supemode， 如 图 6-202 所 示 。 

图 6-203 为 整个 系统 数据 路 由 的 路 径 示意 图 。 可 以 
使 用 独立 的 ISR 芯 片 作为 中 心 交 换 ， 从 而 接 入 更 多 的 
Supernode。 图 中 右 侧 所 示 为 集中 交换 路 由 板 ， 其 核心 
为 2 片 NC 芯片 (只 使 用 其 中 的 ISR 模 块 ) ， 可 以 看 到 其 
提供 了 56 个 接口 的 输出 ， 每 个 接口 都 使 用 光 模块 。 

整个 PERCS 系 统 是 将 多 个 QPM 紧 耦合 系统 拼接 
成 一 个 松 耦 合 系统 。 由 于 经 过 外 部 网 络 路 由 之 后 ， 
消息 的 时 延 相 比 POWER7 CPU 原生 互联 Fabric 还 是 较 
大 ， 所 以 这 类 超级 计算 机 一 般 都 不 提供 全 局 平滑 的 地 
址 空间 ， 要 提供 其 实 也 不 是 难事 ， 就 看 系统 对 NUMA 
(QPM 是 个 ccNUMA 域 ) 之 上 再 次 NUMA (通过 NC 
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黏合 ) 产生 的 时 延 差异 的 耐 受 度 了 。PERCS 是 一 个 分 
布 式 共享 内 存 系统 ， 意 味 着 程序 可 以 使 用 访 存 的 方式 
与 其 他 程序 交换 数据 。NC 中 的 NMMU 模 块 便 是 负责 
将 程序 的 虚拟 地 址 映射 到 远 端 物理 地 址 的 加 速 模块 ， 
其 内 含 了 TLB， 并 且 与 QPM 中 CPU 内 的 TLB 保 持 一 致 
和 联动 ， 这 样 可 以 简化 程序 的 设计 。 


6.9.11.7 Intel CPU 在 QPI 网 络 下 的 CC 实现 


下 面 我 们 来 介绍 一 下 基于 Intel QPI 网 络 下 的 CC 实 
现 。 不 同 CPU 厂商 在 CC 方面 的 细节 机 制 各 不 相同 。 

如 图 6-204 所 示 ， 我 们 假设 某 ccNUMA 系 统 由 
A、B、C、H 这 4 颗 CPU 组 成 。 某 时 刻 C 欲 读 取 某 缓存 
行 操作 并 且 本 地 缓存 未 命中 〈C 的 缓存 中 该 行 处 于 I 
态 ) ，C 需 要 先 根据 该 缓存 行 的 内 存 地 址 来 判断 该 地 
址 的 Home 节 点 是 谁 ， 该 映射 关系 是 系统 设计 时 候 被 
主板 和 BIOS 厂 商定 死 的 ， 每 个 CPU 内 部 都 有 个 SAD 
(Source Address Decoder， 源 地 址 解码 器 ) 硬件 电路 
模块 专门 负责 根据 所 发 出 的 请 求 的 目的 地 址 来 查找 其 
归属 的 Node ID (QPI Fabric 中 的 节点 地 址 ) 。SAD 虽 
然 是 根据 请 求 的 目的 地 址 来 查寻 映射 关系 ， 但 是 由 于 
其 工作 在 请 求 发 起 的 源 端 ， 所 以 才 被 称 为 SAD。 
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图 6-202 PERCS 系 统 的 机 柜 实物 图 
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图 6-203 ”独立 ISR 集 中 交换 板 
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图 6-204 


经 过 SAD 译 码 查找 之 后 ，C 将 该 读 请 求 
(RdData) 发 送 至 H 节 点 ， 目 的 地 址 为 刚才 所 查 到 的 
Home 节 点 的 Node ID，QPI 则 根据 Node ID 将 该 请 求 
路 由 到 HH 节点 。C 节 点 同时 会 发 出 探 询 (SnpData) 给 
A 和 B 来 询问 一 下 它们 那里 是 否 有 该 地 址 最 新 的 缓存 
行 。H 节 点 收 到 这 个 请 求 后 立即 向 其 后 端的 内 存 控制 
器 (MC) 发 起 内 存 读 取 过 程 (图 中 的 MR，Memory 
Read) 并 接收 RAM 返 回 的 数据 ， 并 且 H 节 点 此 时 准备 
接收 系统 内 除了 C 之 外 其 他 所 有 CPU 返回 的 探 询 响应 
消息 (Rsp) ， 因 为 了 知道 ，C 发 出 了 读 请 求 ， 那 么 C 
一 定 会 自己 发 出 探 询 请 求 给 所 有 其 他 CPU。 

由 于 A 和 B 中 该 行 的 状态 为 1， 所 以 A 和 B 会 发 送 
RspI (Response with Invalid) НАНА СЕ, 
虽然 是 C 发 出 的 探 询 ， 但 是 探 询 响应 是 直接 发 给 H 
节点 ) 。H 节 点 收 到 所 有 CPU (发 起 请 求 的 节点 C 除 
外 ) 的 探 询 响应 之 后 ， 做 综合 判断 ， 也 一 看 A 和 B 的 
Rsp 消 息 中 都 声明 了 它们 内 部 缓存 该 行 都 是 Invalid 
态 ， 那 么 H 节 点 当然 要 将 之 前 从 RAM 中 读 出 并 缓存 
着 的 该 行 的 数据 发 送 给 C， 并 且 同 时 告诉 C“ 该 行 在 
你 这 可 以 是 E 态 ” (DataC E Cmp, Data Соһегепсу_ 
Exclusive_Completion) ， 因 为 H 知 道 目 前 其 他 CPU 都 
没有 缓存 该 行 的 数据 。C 收 到 数据 和 这 个 指示 之 后 ， 
将 自己 缓存 中 该 行 的 状态 设置 为 E 态 。 

在 图 中 右 侧 所 示 的 过 程 中 ，A 的 RspI 消 息 先 于 C 
的 RaData 消 息 到 达 了 HH， 这 很 有 可 能 发 生 ， 比 如 C 的 
RdData 消 息 由 于 校 验 错误 而 被 重 传 ， 或 者 C 离 H 太 远 
而 A 离 H 很 近 ， 都 有 可 能 。 但 是 没关系 ，H 节 点 上 的 
Snoop Agent 的 状态 机 是 考虑 了 这 种 情况 的 ， 如 果 先 
收 到 Rsp 消 息 ， 则 其 一 定 会 知道 有 一 个 读 请 求 还 未 收 
到 ， 而 且 还 会 知道 其 他 CPU 会 有 更 多 Rsp 消 息 后 面 到 
达 ， 其 后 所 发 生 的 逻辑 流程 和 结果 与 左 侧 图 一 致 。 
中 虚线 表示 使 用 的 是 保 序 传输 通道 (QPI 提 供 了 多 种 
传输 机 制 ， 有 的 保证 消息 在 该 通道 传输 的 先后 顺序 ， 
有 的 则 不 保证 ) ， 而 实 线 表示 非 保 序 通道 。 探 询 请 求 
由 于 没有 先后 依赖 关系 ， 所 以 可 以 在 非 保 序 通 道上 
传输 。 整 个 过 程 中 牵扯 的 多 轮 交 互 ， 同 属于 一 个 事务 
(Transaction) ， 拥 有 同一 个 Transaction ID， 系 统 中 同一 
时 刻 可 能 有 针对 多 个 地 址 请 求 的 多 个 Transaction 在 进行 


读 请 求 的 CC 流程 


中 ， 所 有 节点 根据 消息 的 Transaction ID 来 区 分 彼此 。 

图 6-205 为 写 请 求 的 逻辑 流程 。 假 设 A、B、C 的 某 
缓存 行 的 初始 状态 分 别 是 I[、I、M， 而 此 时 B 发 起 针对 
该 行 的 写 操作 (RdInvOwn) 。 这 里 可 能 有 些 迷 惑 ， 前 
文 也 提 到 过 ，B 不 一 定 是 整 行 写 入 ， 可 能 只 写 入 该 行 的 
某 些 字 节 ， 所 以 不 能 简单 地 作废 其 他 节点 缓存 里 的 该 
行 ， 而 必须 先 假设 其 他 节点 存在 M 态 尚未 刷 入 RAM 的 
该 行 副本 ， 所 以 需要 先 拿 到 它 然后 顺便 作废 其 他 节点 
的 副本 ， 所 以 B 才 会 先 发 出 这 个 特殊 的 “ 读 并 顺手 作废 
之 ”请 求 (Read Invalid Own) ， 该 请 求 与 本 书 前 文中 
提 到 的 RdIvldPrb， 或 者 有 些 CPU 体 系 结构 中 的 名 词 Read 
Modified (Get Modified, GetM) 请 求 是 同一 回 事 。 

该 读 请 求 被 发 送 到 请 求 目 的 内 存 地 址 所 归属 的 
Home 节 点 ，HH 节 点 收 到 后 依然 是 向 MC 发 起 针对 对 应 
地 址 的 RAM 读 操作 (图 中 的 MR，Memory Read) 并 
将 读 到 的 数据 缓存 在 本 地 。H 节 点 之 所 以 去 读 RAM 是 
因为 它 并 不 知道 其 他 CPU 缓存 里 是 否 真 的 有 该 行 的 M 
态 副 本 存在 ， 如 果 不 存在 ， 再 去 读 RAM 就 浪费 时 间 
了 ， 所 以 预先 读 出 来 ， 如 果 最 终结 果 是 真 不 存在 M 态 
副本 ， 则 H 节 点 会 将 从 RAM 读 出 的 数据 返回 给 B， 这 
也 顺便 完成 了 Write Allocation， 因 为 B 可 能 只 写 一 部 
分 字 节 ， 而 其 他 部 分 需要 填充 。B 同 时 向 A 和 C 发 起 探 
询 请 求 (SnpInvOwn) ， 结 果 A 向 H 节 点 返回 了 RspI， 
因为 A 的 缓存 不 存在 该 行 副本 ， 而 C 则 向 HH 返回 了 
RspFwdI (Response with Forwarding and self-Invalid, 
“已 转发 给 请 求 者 并 且 自觉 作废 了 ”) 消息 。C 同 时 
将 其 内 部 M 态 的 副本 通过 QPI 转 发 给 B 并 作废 自己 的 该 
行 ，B 收 到 后 则 可 以 判断 出 其 他 节点 目前 已 经 没有 该 
行 缓存 了 ， 所 以 将 自己 处 该 行 的 状态 改 为 M。H 节 点 
收 到 除了 B 之 外 所 有 其 他 CPU 的 Rsp 消 息 之 后 ， 做 出 判 
断 该 Transaction 是 否 已 结束 。 本 例 中 ，A 返 回 了 RspI 说 
没 自 己 喻 事 儿 ，C 也 声明 了 已 转发 给 B， 搞 定 ， 所 以 H 
向 B 发 送 Cmp (Completion〉 完 成 消息 。 

图 6-205 右 侧 展 示 的 是 当 两 个 节点 同时 向 HH 节点 
发 送 针 对 同一 个 缓存 行 的 写 请 求 导 致 冲突 之 后 的 处 
理 流程 。 首 先 B 和 A 同时 向 HH 发 出 RdInvOwn， 证 明 B 
和 A 同 时 要 写 入 某 缓存 行 ， 需 要 先 读 入 该 行 的 最 新 副 
本 ， 在 向 H 发 出 读 请 求 的 同时 ， 也 会 向 其 他 节点 〈 本 
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图 6-205 ” 写 请 求 以 及 访问 冲突 时 的 CC 流程 


例 对 于 A 来 讲 “ 其 他 ”只 是 B， 对 于 B 来 讲 则 是 A〉 同 
步 发 出 SnpInvOwn 探 询 。B 距 离 H 较 近 ， 所 以 B 的 读 请 
ЖКН, НУ ВАМ ЕМВ. АЙЖ 
到 B 之 后 ，B 将 返回 一 个 RspCnflt 消 息 给 H， 说 明 这 探 
寻 操 作 与 其 正在 访问 的 缓存 行 是 冲突 的 ， 也 就 是 他 人 
CA) 正 试图 访问 同一 个 缓存 行 。 同 时 A 收 到 B 的 探 
询 之 后 ， 也 会 向 H 返 回 一 个 RspCnflt 消 息 。 但 是 由 于 A 
离 H 较 远 ， 所 以 B 发 出 的 RspCnflt 先 达到 HH。 当 H 收 到 
B 发 出 的 RspCnflt 之 后 ， 则 意味 着 A 已 向 B 完 成 了 探 询 
操作 ， 所 以 H 会 将 读 出 的 数据 发 送 给 A 并 告诉 A 该 数 
据 在 A 中 可 以 是 E 态 (DataE) ， 同 时 告诉 A 还 有 其 他 
人 其 实 也 在 请 求 该 行 并 要 求 A 必须 确认 已 知晓 该 冲突 
(FrcAckCnflt, Fre=Force) 。H 此 时 虽然 已 经 接收 到 
A 和 B 的 读 请 求 ， 但 是 还 不 确定 A 针对 B 的 探 询 会 返回 
什么 消息 ， 但 是 至 少 H 知 道 将 数据 先 传递 给 A 是 正确 
的 。A 收 到 H 发 送 的 数据 之 后 ， 将 该 行 状态 改 为 E 态 ， 
并 按照 也 的 要 求 发 出 一 个 AckCnflt 消 息 告知 H 它 已 经 
知道 了 。 在 这 之 前 ，H 也 收 到 了 A 针对 B 的 探 询 而 向 王 
发 出 的 RspCnflt， 所 以 H 在 向 A 发 出 数据 之 后 ， 也 还 需 
要 向 B 返 回 最 新 的 数据 ， 而 由 于 H 之 前 已 经 向 A 提供 
了 数据 ， 此 时 A 中 该 缓存 行 一 定 是 最 新 的 ， 所 以 H 会 
向 A 发 出 Cmp_FwdInvOwn， 告 诉 A 该 次 交易 完成 ， 并 
转发 该 数据 给 B， 并 将 自己 的 这 条 缓存 行 副本 作废 。 
A 收 到 H 之 前 所 提供 的 数据 之 后 ， 更 改 该 数据 (由 E 
FIMA) ， 之 后 收 到 了 了 H 发 出 的 转发 数据 给 B 的 请 
求 ， 则 向 了 返回 RspFwdI 表 明 已 收 到 该 指令 ， 同 时 使 
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用 DataC_M 消 息 将 数据 转发 给 B，HH 此 时 才 向 B 发 出 一 
个 Cmp 消 息 来 应 答 B 之 前 向 HH 发 出 的 RspCnflt。 而 B 在 
收 到 A 转发 的 数据 之 后 ， 向 了 HH 发 送 一 个 AckCnflt，HH 向 
B 发 送 Cmp 以 表明 整个 交易 完成 。 

图 6-206 所 示 为 另外 一 种 CC 机 制 ， 其 多 用 于 IO 设 
备 ， 比 如 DMA 控 制 器 〈 我 们 称 之 为 IJO Agent 吧 ) ， 在 
读 写 主机 内 存 时 通知 其 他 缓存 从 而 实现 CC。 而 且 不 
少 IO 设 备 在 读 写 数据 时 并 不 遵循 “每 次 读 写 一 行 
这 个 规则 ， 可 能 会 读 写 8 字 节 、24 字 节 ， 等 等 ， 但 是 
缓存 行 可 能 是 64 字 节 。 所 以 为 了 提升 性 能 ， 这 个 场景 
下 就 不 采用 RdInvOwn (GetM) 这 种 机 制 了 ， 也 就 是 
不 用 把 完整 缓存 行 先 读 过 来 ， 然 后 融入 改写 的 部 分 ， 
再 写 回去 。 取 而 代 之 的 是 ，IO Agent 首 先 通知 所 有 人 
将 对 应 的 副本 写 回 到 RAM 并 自行 作废 缓存 中 的 副本 ， 
然后 自己 再 将 需要 改写 的 字 节 写 回 到 RAM 并 自行 作废 
缓存 中 的 副本 。 如 图 中 左 侧 所 示 ，A 就 是 IO Agent, 
其 采用 Invalidating Write GW) ， 也 就 是 上 文中 所 描 
述 的 方式 来 实现 CC。 左 侧 图 中 的 B 和 C 都 不 包含 VO 目 
标 地 址 的 缓存 副本 ， 所 以 无 须 写 回 。 而 右 侧 图 中 ，B 
包含 了 一 个 处 于 M 态 的 副本 ， 所 以 其 需要 写 回 。 

图 6-207 所 示 为 冲突 检测 和 处 理 模块 。 其 使 用 一 
个 CAM 和 矩阵 来 存储 当前 进行 中 的 每 一 笔 交 易 的 目标 地 
址 、 处 于 哪个 阶段 、 是 否 有 冲突 以 及 与 其 相 冲突 的 消 
息 在 Snoop Buffer 中 所 处 的 位 置 索 引 。 其 使 用 一 系列 
的 硬件 化 的 状态 机 《〈 图 中 未 显示 ) 来 处 理 冲突 。 这 个 
模块 位 于 HA 中 。 
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图 6-206 更 加 复杂 的 冲突 检测 和 处 理 流程 
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图 6-207 HA 中 的 冲突 检测 和 处 理 模块 
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本 章 的 主体 部 分 到 此 告 一 段落 。 我 们 稍微 回顾 一 
下 本 章 走 过 的 路 。 为 了 充分 利用 流水 线 ， 塞 满 那 些 空 
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泡 ， 多 线程 机 制 被 广泛 采用 。 用 同一 个 核心 同时 执行 
多 个 线程 叫 作 超 线 程 。 多 线程 机 制 给 硬件 设计 带 来 的 
极 大 的 复杂 性 ， 包 括 时 序 一 致 性 问题 和 空间 一 致 性 问 
题 。 为 了 实现 缓存 的 时 空 一 致 性 ， 需 要 将 所 有 核心 全 
部 互联 起 来 ， 出 现 了 各 种 网 络 拓扑 。 

为 了 实现 缓存 一 致 性 而 又 要 避免 不 必要 的 广播 ， 
MESI/MESIF/MOESI 等 各 种 源 过 滤 协 议 出 现 。 共 享 
总 线 拓扑 实现 CC 比较 便捷 ， 但 是 总 线 的 性 能 是 很 差 
的 ， 后 来 过 渡 到 分 布 式 多 级 交换 /Ring 网 络 ， 失 去 了 天 
然 嗅 探 的 便捷 性 ， 任 何 CC 同步 必须 靠 一 条 一 条 的 消 
息 ， 要 么 广播 ， 要 么 单 播 。 为 了 进一步 提速 ， 消 除 不 
必要 的 广播 ， 出 现 了 各 种 过 滤 机 制 。 随 着 网 络 规模 的 
不 断 扩 大 ，HA 代 理 CC 的 机 制 被 广泛 采用 ， 在 网 络 路 
径 上 ， 比 如 NC 上 ， 也 做 了 过 滤 。 

本 章 中 介绍 的 缓存 一 致 性 实现 机 制 ， 只 是 介绍 了 
一 个 大 框架 ， 至 于 其 中 的 各 处 细节 ， 远 比 你 所 看 到 的 
复杂 。 图 6-208 为 Intel 目 前 体系 结构 之 下 的 各 种 CC 消 
息 类 型 一 览 。 其 不 仅 有 大 量 的 消息 类 型 ， 而 且 有 复杂 
的 时 序 模型 ， 这 些 对 应 到 底层 电路 设计 中 ， 其 难度 可 
想 而 知 。 
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图 6-208 ”Intel 体 系 结构 下 实际 的 CC 消息 类 型 一 览 


降低 CC 广播 流量 ， 除 了 采用 纯 硬件 优化 之 外 ， 
还 可 以 向 软件 方面 寻求 “帮助 ”。 假 设 系统 内 共有 4 
个 8 核 CPU， 如 果 能 够 将 多 个 线程 尽量 地 安排 在 同一 
个 物理 CPU 片 内 的 多 核心 上 执行 ， 而 不 是 在 全 局 范围 
内 分 散 ， 那 么 这 些 线程 即便 是 有 共享 变量 ， 也 会 紧 
凑 在 同一 个 CPU 片 内 的 核心 。 本 CPU 内 的 HA 记录 中 
会 只 显示 某 条 数据 仅 被 缓存 在 本 CPU 内 部 的 核心 内 并 
处 于 S 态 ， 那 么 当 这 些 线程 访问 这 个 共享 变量 时 ， 该 
CPU 就 不 会 向 片 外 进行 广播 ， 自 然 过 滤 掉 了 广播 。 所 
以 ， 这 种 多 CPU 的 NUMA 架 构 ， 必 须 让 负责 线程 调度 
的 程序 所 感知 到 ， 才 能 更 好 地 配合 。 目 前 ，Linux 操 
作 系 统 下 的 线程 调度 管理 已 经 可 以 对 NUMA 架 构 有 比 
较 灵活 和 优化 的 适 配 ， 很 多 参数 可 以 让 用 户 来 指定 。 
另外 ，Intel 在 其 22 核 心 Xeon CPU 上 支持 Cluster-on-Die 
模式 。 该 模式 下 ， 单 颗 CPU 内 部 的 22 个 核心 可 以 体现 
为 两 个 NUMA Node， 如 图 6-209 所 示 ， 这 22 个 核心 物 
理 上 位 于 两 个 Ring 上 ， 如 果 有 太 多 的 跨 Ring 数 据 或 者 
CC 广播 流量 ， 两 个 Ring 之 间 的 通道 会 产生 瓶颈 。 而 如 
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果 让 这 两 个 Ring 体 现 为 两 个 独立 的 NUMA 节 点 的 话 ， 
线程 调度 模块 可 以 有 意 地 将 比如 同一 个 进程 中 的 几 个 
线程 《有 高 概率 访问 共享 变量 ) 调度 到 某 个 Ring 内 部 
的 11 个 核心 上 执行 ， 这 样 就 更 进一步 地 缩小 CC 广播 的 
范围 。 

流水 线 和 缓存 的 存在 把 大 量 的 时 间 和 空间 复杂 度 
带 给 了 整个 系统 ， 缓 存 更 甚 。 比 如 ， 在 中 国 自主 研发 
的 龙芯 3A1000 四 核心 通用 CPU 中 ， 就 曾经 遇 到 过 一 个 
让 人 连年 都 过 不 好 的 问题 。2010 年 前 后 ， 当 采用 几 十 
片 龙芯 3A1000 搭 建 大 规模 计算 机 集群 时 ， 会 出 现 偶 
发 程序 错误 ， 大 概 一 天 一 次 。 该 问题 在 单 芯片 运行 时 
并 不 会 出 现 。 经 过 大 量 测试 ， 最 终 确定 的 原因 是 在 组 
存 这 个 环节 由 于 设计 失误 产生 了 时 序 问 题 。 当 核心 访 
存 不 命中 时 ， 龙 芯 3A 被 设计 为 将 获取 到 的 缓存 行 同时 
填 入 到 L1 和 L2 缓 存 ， 但 是 如 果 L2 缓 存 比较 忙 ， 没 来 
得 及 将 该 行 写 入 缓存 之 前 ，L1 缓 存 先 被 写 入 了 ， 然 后 
核心 立即 又 改写 了 L1 缓 存 中 的 该 行 ， 再 后 又 由 于 该 行 
在 L1 缓 存 处 发 生 了 被 挤占 ， 必 须 写 回 L2 缓 存 ， 而 此 时 
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图 6-209 ”Cluster-on-Die 模 式 示意 图 
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之 前 的 那 条 旧 缓 存 行 尚未 被 写 入 L2 缓 存 ， 而 被 改写 的 
新 数据 却 先 被 写 入 了 ， 而 后 ， 旧 数据 得 到 了 机 会 被 写 
入 ， 覆 盖 了 新 数据 ， 导 致 数据 丢失 。 后 来 在 改版 的 芯 
片 中 修复 了 这 个 问题 。 

2012 年 前 后 ， 龙 芯片 3A1000 进 行 了 第 二 次 改版 ， 
这 次 修正 的 依然 是 时 序 问题 。 在 双 路 CPU 直 连 组 成 的 
系统 中 ， 在 一 些 特定 的 程序 访 存 序列 场景 下 ， 导 致 
了 片 外 访 存 网 络 死 锁 。 龙 芯 3A 采 用 的 是 AMD 公 司 的 
片 外 HT 网 络 体系 结构 ，HT 提 供 了 3 个 虚拟 通道 (本 
章 前 文中 介绍 过 虚拟 通道 的 概念 ) ， 分 别 为 POST、 
NONPOST 和 RESPONSE。 而 龙芯 片 内 访 存 网 络 采用 
的 ARM 体 系 结构 中 的 AXI 网 络 ， 其 提供 5 个 实 通道 (5 
套 独立 的 队列 ) ， 分 别 为 读 请 求 、 写 请 求 、 写 数据 、 
读 响 应 、 写 响应 。 于 是 ， 从 片 内 到 片 外 ， 不 得 不 将 一 
些 流量 合并 到 一 个 HT 虚 通 道中 传输 ， 龙 芯 将 写 请 求 和 
写 数 据 这 两 种 消息 合并 在 一 起 。 然 而 ， 龙 芯 3A 的 缓存 
一 致 性 协议 要 求 写 响 应 不 能 被 堵 ， 而 读 响 应 通道 发 出 
的 L2 缓 存 给 L1 缓 存 的 一 致 性 写 请 求 有 时 会 因为 L1 缓 存 
处 理 不 过 来 而 暂时 堵 住 ， 这 时 就 会 顺带 堵 死 写 响应 通 
道 〈 因 为 同一 个 虚拟 通道 队列 内 的 请 求 是 不 能 乱 序 发 
出 的 ) ， 而 这 个 暂时 性 堵 死 最 终 错综复杂 地 导致 永久 
性 堵 死 ， 也 就 是 死 锁 。 对 应 的 解决 办 法 则 是 在 HT 原 有 
的 3 个 虚拟 通道 的 基础 上 ， 开 辟 了 第 四 个 虚 通 道 ， 并 且 
允许 写 请 求 与 写 数 据 之 间 插 入 写 响 应 消息 。 第 二 次 改 
版 同时 还 修正 了 一 个 HT 互联 时 异步 握手 的 问题 。 最 
终 ，2012 年 8 月 流 片 最 终 版 本 ， 一 直 被 稳定 使 用 中 。 

2011 年 ， 龙 芯 3B1000 八 核心 CPU 在 设计 上 又 出 
现 了 死 锁 问 题 。 某 个 核心 写 访问 其 他 节点 RAM 时 ， 
写 地 址 和 写 数据 是 分 开 成 两 个 消息 传送 的 ， 结 果 另 外 
的 核心 也 来 访问 内 存 ， 同 时 又 有 几 十 个 这 样 的 相互 访 
问 时 ， 写 地 址 发 过 去 了 ， 但 是 写 数据 相互 封 堵 导 致死 


锁 。 对 应 的 解决 办 法 则 是 让 写 地 址 和 写 数据 消息 原 
子 地 被 发 送 和 执行 。2012 年 4 月 龙芯 3B 流 片 发 布 第 二 
版 ， 至 今 稳定 。 

如 果 是 事后 诸葛 的 话 ， 可 以 看 出 这 个 问题 显 而 
易 见 ， 为 什么 当初 设计 的 时 候 却 被 忽略 了 呢 ? 或 者 当 
初 为 什么 不 把 所 有 的 访 存 请 求 都 完全 排队 在 FIFO 中 
R? 因为 人 脑 对 各 种 场景 的 思索 总 归 是 有 限 的 ， 难 免 
出 错 。 同 时 为 了 提升 性 能 ， 各 种 动作 尽量 被 异步 执 
行 ， 如 果 全 局 都 使 用 FIFO 倒 是 一 了 百 了 ， 但 是 性 能 会 
很 差 。 所 以 ， 设 计 一 款 CPU 体 系 结构 是 个 持久 坚持 总 
结 踩 坑 和 提高 的 过 程 ， 这 个 过 程 也 正 像 本 书 的 写作 过 
程 ， 不 知道 经 历 了 多 少 返 工 、 全 部 推倒 重 写 的 痛楚 。 
删 掉 电子 文档 中 的 字 容 易 ， 无 非 就 是 多 付出 几 天 、 几 
周 的 脑力 ， 但 是 修正 一 个 已 经 做 好 的 机 械 、 芯 片 电路 
中 的 差错 ， 其 成 本 可 就 不 可 估量 了 。 事 后 审视 这 些 问 
题 ， 谁 能 通过 表面 现象 立即 就 想到 是 缓存 时 序 问 题 导 
致 的 呢 ? 单 芯片 不 出 现 ， 几 十 片 多 芯片 才 出 现 ， 与 组 
存 有 何 关 系 ? 一 天 出 现 一 次 ， 为 什么 不 高 频率 出 现 ? 
CPU 的 复杂 度 已 经 无 法 让 人 直接 通过 这 些 上 层 发 生 的 
现象 而 迅速 知悉 底层 发 生 了 什么 ， 甚 至 设计 它 的 人 也 
做 不 到 ， 所 以 只 能 用 无 休止 的 各 种 黑 盒 测 试 来 穷 举 出 
问题 。 

在 浩瀚 宇宙 时 空 下 ， 在 物理 规律 面前 ， 人 类 的 思 
维 是 渺小 的 ， 人 类 思考 数 百年 可 能 才 参 透 一 点 点 。 一 
个 时 空 相对 论 就 把 人 们 折腾 了 一 百年 ， 从 多 核心 /CPU 
并 行 执行 的 时 序 和 空 序 问题 ， 就 可 以 窜 见 计算 机 世界 
之 复杂 。 感 叹 之 余 ， 想 想 宇 宙 这 个 大 时 空 内 ， 在 “ 同 
时 ”发 生 着 多 少 事件 ， 这 些 事件 之 间 又 是 否 有 什么 内 
在 关联 和 同步 ， 这 就 不 是 我 等 能 想 通 的 了 ， 不 过 可 以 
利用 计算 机 的 工作 原理 ， 去 揣测 造物 者 的 设计 逻辑 ， 
甚至 利用 人 工 智能 来 思考 和 参透 宇宙 的 本 质 。 
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тЫ ранено иное в 
十 .向 了 Uo 系统 相关 的 内 容 。 所 谓 IO 系统 是 指 Input 
和 Output， 即 输入 输出 系统 。 该 称谓 有 别 于 访 存 操 
作 。 访 存 操作 是 访问 CPU 的 全 局 地 址 空间 中 的 存储 
器 中 所 存储 的 数据 ， 这 些 数 据 可 以 存放 于 MC 后 挂 的 
SDRAM、 系 统 桥 的 配置 寄存 器 (包括 CPU 片 内 访 存 
网 络 中 的 一 些 配置 寄存 器 、 南 桥 的 配置 寄存 器 等 ) 、 
BIOS ROM、LO 控 制 器 前 端的 寄存 器 中 。 

注意 ， 访 问 CPU 内 部 的 某 些 控制 寄存 器 的 操作 ， 
并 不 是 访 存 操作 。 这 些 寄存 器 并 没有 被 划 入 全 局 地 址 
空间 里 ， 而 是 使 用 特殊 的 指令 来 访问 ， 比 如 LDPTB 
(Load Page Table Base Address， 加 载 页 表 基 址 ) 等 ， 
无 须 用 Load/Stor 指 令 来 访问 。 那 么 ， 为 什么 不 将 这 些 
控制 寄存 器 ， 或 者 把 所 有 可 配置 的 寄存 器 全 部 纳入 到 
地 址 空间 中 去 访问 呢 ? 比如 LDPTB 是 把 页 表 基 地 址 
载 入 到 专门 的 寄存 器 中 ， 这 个 寄存 器 本 身 就 在 核心 内 
部 ， 因 为 该 寄存 器 的 信号 会 被 直接 输送 给 MMU 电 路 
模块 查 页 表 ， 如 果 该 寄存 器 用 寻 址 的 方式 访问 ， 它 就 
要 被 放置 到 寻 址 电路 的 下 游 ， 而 其 信号 却 需 要 与 上 游 
的 MMU 连 接 ， 这 样 完全 没有 意义 。 而 LO 桥 片 、 片 内 / 
外 访 存 网 络 控 制 器 、 交 换 器 上 的 一 些 配 置 寄存 器 ， 本 
身 就 处 于 核心 外 面 ， 这 些 处 于 核心 外 部 的 寄存 器 只 能 
用 地 址 寻 址 来 访问 ， 所 以 它们 就 被 纳入 了 全 局 地 址 空 
间 。 反 过 来 讲 ， 为 什么 不 把 针对 外 部 的 配置 寄存 器 的 
访问 做 成 独立 指令 呢 ?” 显 然 ， 这 不 划算 。 因 为 外 部 的 
配置 寄存 器 太 多 ， 如 果 访 问 这 些 寄 存 器 中 的 每 一 个 的 
过 程 都 使 用 特定 的 指令 的 话 ， 指 令 译 码 器 的 电路 规模 
就 会 增加 ， 而 且 就 算 做 成 了 指令 ， 到 头 来 还 得 翻译 成 
Load/Stor 指 令 通过 访 存 网 络 来 访问 这 些 外 部 寄存 器 。 
这 何苦 呢 。 

对 于 一 台 计 算 机 来 讲 ， 它 必须 有 大 容量 硬盘 、 
能 够 接 入 网 络 、 能 够 发 声 、 能 够 显示 图 像 。 当 然 ， 能 
够 连接 键盘 和 鼠标 ， 是 最 基本 的 要 求 。 那 么 计算 机 具 
体 如 何 访 问 硬盘 中 所 存储 的 数据 ， 如 何 从 网 络 上 接收 
数据 或 者 向 网 络 发 送 数据 ， 如 何 发 声 、 显 示 图 像 ? Е 
取 / 接 收 、 写 入 /发 送 上 述 这 些 外 部 的 数据 的 过 程 ， 被 
统称 为 TO 〈InputOutput) 。CPU 并 不 能 用 也 不 适合 
用 Load/Stor 指 令 来 直接 访问 硬盘 上 的 数据 。 虽 然 你 可 
以 设计 一 个 这 样 的 系统 ， 把 比如 一 块 1 TB 容量 的 机 械 
硬盘 中 所 有 的 字 节 纳入 整个 地 址 空间 ， 那 么 必须 在 整 
个 访 存 网 络 上 的 所 有 节点 路 由 表 中 设置 对 应 的 路 由 ， 
从 而 让 负责 控制 硬盘 的 控制 器 电路 收 到 并 认领 CPU 核 
心 发 出 的 针对 这 个 地 址 区 间 的 Load/Stor 指 令 ， 并 转发 


给 硬盘 执行 ， 硬 盘 收 到 Load/Stor 指 令 ， 读 写 对 应 的 
数据 区 域 。 这 个 过 程 的 延迟 太 高 ， 可 达 10 ms 级 别 ， 
而 Load 指 令 会 导致 CPU 流水 线 整 体 被 阻塞 10 ms， 这 
个 时 间 对 于 时 钟 周期 在 GHz 级 别 的 CPU 而 言 是 极 大 的 
浪费 。 

有 一 个 解决 办 法 是 在 外 部 设备 前 置 一 个 高 速 组 
存 ， 比 如 用 32MB 的 SDRAM 来 充当 该 缓存 ， 并 将 该 
区 域 纳 入 全 局 地 址 空间 ， 程 序 将 要 写 入 外 部 设备 的 数 
据 写 入 到 该 缓冲 中 即 可 ， 外 部 设备 IO 控制 器 从 这 里 
再 将 数据 拿 走 并 发 送 给 后 端 。 由 于 访问 SDRAM 的 速 
度 较 快 ， 所 以 核心 流水 线 被 阻塞 等 待 的 概率 就 会 比较 
低 。 但 是 ， 由 于 外 部 的 存储 介质 速度 慢 ，CPU 向 缓存 
中 存 入 数据 的 速度 很 快 ， 那 么 一 旦 缓冲 区 满 了 怎么 
办 ? 另外 ， 从 外 部 设备 中 获取 数据 时 ， 缓 冲 区 起 不 到 
任何 作用 ， 访 问 速度 依然 很 慢 。 

理论 上 ， 向 网 络 发 送 数据 ， 也 可 以 用 Load/Stor 
指令 来 实现 。 比 如 我 要 把 一 份 数据 发 送 给 你 ， 需 要 你 
预先 告诉 我 要 把 这 份 数据 存 到 哪里 ， 也 就 是 给 我 一 个 
你 方 的 存储 器 地 址 。 我 方程 序 获知 这 个 地 址 ， 然 后 用 
Stor 指 令 向 该 地 址 发 起 写 入 操作 ， 同 理 ， 访 存 网 络 需 
要 把 该 地 址 路 由 到 网 络 控制 器 ， 网 络 控制 器 也 需要 被 
提前 设置 为 认领 所 有 你 方 所 通告 的 地 址 段 的 访问 。 网 
络 控制 器 接收 到 该 数据 之 后 ， 需 要 把 该 数据 要 被 写 入 
的 你 方 的 地 址 追加 到 数据 尾部 ， 然 后 将 这 份 带 有 你 方 
目标 存储 器 地 址 的 数据 尾部 再 追加 上 一 个 “用 于 区 分 
该 数据 包 是 要 发 送 给 网 络 上 哪 台 机 器 的 ”地 址 ， 或 者 
说 机 器 地 址 。 网 络 上 的 路 由 器 根据 机 器 地 址 将 数据 包 
发 送 给 对 应 的 端口 ， 接 收 方 收 到 之 后 ， 根 据 数据 包 中 
的 存储 器 地 址 ， 将 数据 写 入 自身 的 存储 器 ， 并 需要 返 
回 一 个 ACK 信 号 给 发 送 方 ， 发 送 方 接收 到 ACK 信 号 ， 
该 Stor 请 求 才 算 成 功 结束 。 可 想 而 知 ， 由 于 外 部 网 络 
速度 很 慢 ， 该 操作 也 会 阻塞 核心 流水 线 。 


如 果 数 据 包 不 带 有 机 器 地 址 ， 那 么 网 络 上 的 
交换 /路 由 设备 将 不 知道 该 数据 到 底 要 发 到 哪里 。 
网 络 上 的 交换 路 由 设备 无 法 识别 “存储 器 地 址 ” 
这 个 东西 。 除 非 ， 我们 把 整个 网 络 上 的 所 有 机 器 
的 存储 器 地 址 都 统一 编 址 ， 比 如 机 器 A 和 B 上 各 自 
有 1GB SDRAM 可 供 访问 ， 网 络 中 的 所 有 路 由 交换 
设备 上 的 路 由 表 可 以 这 样 配置 : 凡是 访问 存储 器 
地 址 0~1GB 区 间 的 ， 统 一 发 送 给 端口 A; 访问 


1GB ~2GB 区 间 的 统一 发 送 给 端口 B。 这 样 ， 如 果 
我 要 访问 机 器 B 上 的 第 500MB， 数 据 包 中 的 目标 地 
址 应 为 1.5GB。 这 样 的 话 ， 整 个 网 络 上 的 所 有 CPU 
和 SDRAM 本 质 上 就 构成 了 一 台 全 局 共享 内 存 的 
NUMA 系 统 。 由 于 外 部 网 络 速度 较 慢 ， 不 管 是 用 全 
局 存储 器 地 址 寻 址 ， 还 是 用 机 器 地 址 + 存储 器 地 址 
寻 址 ， 上 述 这 种 直接 用 L/S 指 令 访问 其 他 计算 机 存 
储 器 的 操作 ， 都 会 严重 影响 性 能 。 


所 以 ， 为 了 从 根本 上 解决 外 部 设备 IO 拖累 核心 
流水 线 执行 这 个 问题 ， 我 们 需要 一 套 精 细 设 计 的 IO 
控制 流程 。 硬 盘 、 网 络 等 外 部 设备 并 非 简单 的 存储 
器 ， 而 是 由 很 多 复杂 模块 和 部 件 组 成 的 精密 系统 。 比 
如 硬盘 包含 盘 片 、 磁 头 、 电 机 等 很 多 部 件 ， 有 很 多 运 
行 模式 ， 比 如 全 转速 运行 、 低 转速 运行 。 另 外 ， 将 数 
据 传送 给 硬盘 ， 硬 盘 是 否 写 入 成 功 ， 还 不 一 定 ， 这 个 
过 程 中 有 可 能 会 有 各 式 各 样 的 错误 ， 比 如 盘 片 介质 错 
误 、 数 据 校 验 错误 ， 等 等 。 所 以 硬盘 写 入 成 功 后 必须 
返回 一 个 ACK 状 态 码 告诉 程序 一 侧 到 底 是 成 功 还 是 
失败 了 ， 如 果 失 败 了 程序 一 侧 可 以 重新 再 写 一 遍 。 还 
有 ， 如 果 将 数据 发 送 给 硬盘 ， 硬 盘 可 以 在 尚未 写 入 盘 
片 之 前 就 发 送 ACK 信 号 〈 性 能 高 ， 但 一 旦 突然 掉 电 则 
数据 会 丢失 ) ， 也 可 以 在 写 入 盘 片 之 后 才 发 送 ACK 信 
号 (安全 性 高 ， 但 性 能 差 )。 

而 对 于 SDRAM/SRAM 等 存储 器 ， 由 于 其 工作 机 
制 相对 简单 ， 错 误 率 极 低 ， 纵 使 有 错误 也 可 以 通过 附 
带 的 校 验 码 来 纠正 ， 加 上 内 部 没有 什么 机 械 部 件 ， 没 
有 复杂 的 访问 方式 ， 所 以 这 些 存储 器 也 就 没有 什么 可 
管理 的 地 方 ， 可 以 用 简单 的 L/S 指令 直接 读 写 ， 甚 至 
不 需要 返回 成 功 与 否 的 信号 。 而 硬盘 等 外 部 复杂 设 
备 ， 由 于 上 面 那 些 因 素 考 量 ， 其 不 能 够 仅仅 被 作为 简 
单 的 Load/Stor 指 令 访 问 的 存储 器 来 对 待 ， 而 必须 设置 
一 套 独立 的 指令 系统 。 每 条 指令 要 设计 对 应 的 格式 、 
相关 的 字段 以 及 编码 ， 还 要 规定 交互 方式 ， 比 如 写 指 
令 每 次 传送 的 最 大 数据 量 ，ACK 信 号 什么 时 候 发 送 ， 
是 批量 写 完了 发 送 一 次 ， 还 是 每 次 传送 一 份 数据 就 发 
送 一 次 ， 等 等 。 除 了 普通 的 读 、 写 指令 ， 还 需要 设置 
其 他 的 管理 方面 的 指令 ， 比 如 读 取 硬 盘 内 部 的 各 种 信 
息 / 状 态 的 各 种 指令 。 这 些 指令 复杂 、 宛 长 。 历 史上 出 
现 过 多 种 用 于 访问 硬盘 的 指令 集 ， 比 如 ATA 指 令 集 、 
SCSI 指 令 集 以 及 NVMe 指 令 集 〈 专 用 于 固态 硬盘 ) 。 
硬盘 内 部 的 控制 电路 或 者 程序 需要 识别 和 执行 这 些 命 
令 ， 需 要 对 命令 译 码 ， 并 生成 对 应 的 控制 信号 ， 比 如 
控制 磁头 的 摆动 和 对 磁头 加 电信 号 读 写 盘 片 等 ， 其 
本 质 上 与 CPU 译 码 机 器 指令 执行 的 过 程 类 似 ， 只 不 过 
CPU 内 部 控制 的 是 电路 ， 而 硬盘 内 部 除了 控制 电路 之 
外 还 要 控制 各 种 机 械 装 置 。 

那么 ， 这 些 针 对 外 部 设备 的 操作 命令 ， 是 如 何 
生成 的 ， 如 何 传送 给 外 部 设备 的 ? 外 部 设备 又 是 如 何 
具体 执行 这 些 命令 的 ? 此 外 ， 需 要 传送 给 外 部 设备 的 
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数据 ， 又 是 如 何 组 织 、 放 置 、 传 送 给 外 部 设备 的 ? 本 
章 中 ， 冬 瓜 哥 就 以 硬盘 (存储 系统 ) 、 网 卡 ( 网 络 系 
统 ) ЖЕ ERRA). BE RRRA) 这 4 个 
典型 的 外 部 MO 系统 为 例 ， 向 大 家 展示 一 个 全 局 的 流 
程 框架 。 


71 计算 机 1/O 的 基本 套路 

如 上 文 所 述 ， 外 部 设备 中 的 数据 访问 ， 一 定 要 
与 CPU 的 Load/Stor 访 存 松 耦 合 起 来 ， 异 步 地 执行 。 访 
问 硬盘 设备 的 基本 思路 是 : 程序 首先 把 要 发 送 给 外 部 
设备 的 数据 在 主 存 SDRAM 中 准备 好 ， 然后 把 发 送 给 
硬盘 的 命令 字 用 Stor 指 令 写 入 到 IO 控制 器 的 命令 寄存 
器 中 ， 接 着 再 把 这 些 数据 从 SDRAM 中 用 Load/Stor 指 
令 移动 到 IO 控制 器 的 某 个 缓冲 存储 器 中 〈 该 缓冲 存 
储 器 也 被 纳入 全 局 地 址 空间 ) ， 之 后 就 可 以 做 其 他 事 
情 了 。IO 控 制 器 根据 收 到 的 命令 与 硬盘 沟通 ， 得 到 
硬盘 的 准许 之 后 ， 再 将 缓冲 器 中 的 这 些 数据 发 送 给 硬 
盘 ， 这 个 过 程 也 可 以 与 CPU 核心 并 行 执行 。 而 外 部 IO 
控制 器 成 功 地 将 数据 存 入 外 部 存储 介质 之 后 ， 需 要 在 
状态 寄存 器 中 更 新 状态 为 “Finished”， 比 如 对 应 某 
种 编码 1111， 程 序 可 以 不 断 地 或 者 每 隔 一 定时 间 来 使 
用 Load 指 令 读 出 该 寄存 器 值 到 核心 内 部 数据 寄存 器 ， 
并 在 这 里 与 1111 作 比较 以 判断 是 否 上 次 IO 操作 已 经 完 
成 ， 或 者 等 待 IO 控制 器 发 起 一 个 中 断 信号 ， 然 后 读 
出 该 寄存 器 以 判断 IO 是 否 完成 。 网 络 、 声 音 、 图 像 的 IO 
过 程 本 质 上 都 是 类 似 的 ， 但 是 有 一 些 区 别 。 本 节 中 ， 我 
们 先 利用 硬盘 和 网 卡 为 例 粗略 介绍 一 些 VO 基 本 套路 和 名 
词 概念 ， 在 后 文中 ， 再 详细 介绍 个 中 的 流程 细节 。 


7.1.1 Programmed IO+Polling 模 式 


看 一 下 图 7-1， 我 们 将 一 个 专门 用 于 硬盘 访问 的 
IO 控制 器 直接 挂 接 到 CPU 片 内 访 存 网 络 上 。 该 IO 控 
制 器 向 全 局 地 址 空间 中 暴露 了 若干 个 寄存 器 ， 以 及 
一 个 用 于 接收 数据 的 SRAM 存 储 器 。 这 些 存 储 器 的 地 
址 被 预先 写 入 到 访 存 网 络 控制 器 的 路 由 表 中 ，CPU 可 
以 直接 通过 L/S 指令 访问 这 些 寄 存 器 和 存储 器 。I/O 控 
制 器 内 部 也 有 对 应 的 地 址 译 码 器 ， 能 够 将 收 到 的 全 局 
地 址 翻译 成 对 内 部 的 寄存 器 、SRAM 存 储 器 地 址 的 读 
写 信号 。IO 控 制 器 内 含有 一 个 总 控 模 块 ， 各 个 寄存 
器 与 之 相连 ， 总 控 模块 根据 寄存 器 中 的 内 容 来 做 出 各 
种 动作 。 该 IO 控制 器 中 还 包含 有 一 个 专门 负责 与 硬 
盘 沟 通 的 后 端 接口 控制 器 ， 该 控制 器 按照 硬盘 所 能 接 
受 的 访问 方式 ， 发 出 各 种 访问 请 求 和 数据 消息 ， 它 接 
受 总 控制 模块 的 控制 。 下 面 我 们 就 来 看 一 下 要 将 一 份 
512 字 节 的 数据 写 入 硬盘 0 号 扇 区 的 全 过 程 。 

如 图 7-1 所 示 。 首 先 ， 程 序 生 成 要 存储 的 512 字 
节 的 数据 〈 目 前 商用 硬盘 的 每 个 扇 区 大 小 为 512 字 
节 ) ， 使 用 Stor 操 作 将 其 存 入 了 主 存 中 的 某 段 地 址 ， 
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假设 为 1024 地 址 开始 的 512 字 节 长 的 这 段 地 址 。 同 
时 ， 程 序 还 需要 生成 一 个 能 够 被 硬盘 识别 的 操作 命 
令 。 本 例 中 生成 了 一 条 写 命令 ， 并 将 其 放 在 了 地 址 
2048 处 的 主 存 中 ， 其 长 度 为 10 字 节 。 


硬盘 本 身 作为 一 个 独立 的 小 计算 机 ， 有 自己 的 
CPU、RAM 和 外 部 IO 控制 器 ， 以 及 配套 的 软件 程 
序 。 下 文 会 详细 介绍 硬盘 架构 原理 。 硬 盘 上 运行 的 
程序 ， 从 其 前 端的 接口 控制 器 中 接收 到 命令 ,解析 
该 命令 ， 从 而 判断 下 一 步 动 作 ， 上 比如 准备 好 接收 教 
据 。 这 套 命令 体系 ， 也 就 是 指令 集 ， 必 须 预先 定义 
好 ， 比 如 写 用 什么 编码 、 读 怎么 编码 ， 以 及 其 他 一 
系列 的 状态 查询 、 控 制 等 近 上 百 条 命令 。 历 史上 ， 
主流 的 指令 集 有 ATA 指 令 集 和 SCSI 指 令 集 ， 以 及 当 
前 针对 PCIE 接 口 的 固态 硬盘 单独 派生 的 NVMe 指 令 
集 。 外 部 存储 设备 指令 集 不 但 定义 了 每 个 指令 的 作 
有 用、 编码、 套数 ， 还 定义 了 应 该 怎么 交互 。 比 如 ， 
要 向 硬盘 存 一 份 数 据 ， 应 该 先 发 送 什么 消息 ， 再 发 
什么 消息 ， 硬 盘 需 要 先 回复 什么 消息 ， 再 回复 什么 
消息 ， 最 后 结束 回复 什么 消息 等 ， 这 非常 复杂 。 这 
些 存储 指令 集 又 被 称 为 存储 访问 协议 ， 而 目前 说 的 
指令 集 一 般 特 指 CPU 执 行 的 机 器 指令 的 集合 。 


我 们 看 看 SCSI 命 令 集中 的 Read10 和 Write10 命 
令 ， 如 图 7-2 所 示 。 可 以 看 到 每 条 命令 由 10 字 节 组 
成 ， 这 也 是 命令 之 后 的 “10” 的 含义 。 其 中 1 字 节 用 
于 描述 操作 码 〈 读 、 写 等 ) ，4 字 节 用 于 描述 扇 区 号 
(图 中 的 Logical Block Address， 最 大 能 描述 232 个 扇 
区 ， 也 就 是 总 容量 2 TB 的 存储 空间 。 容 量 大 于 2 TB 
的 硬盘 ， 就 得 用 更 多 字 节 来 描述 扇 区 号 ， 用 Read16/ 
Write16 命 令 ， 其 会 用 8 字 节 来 描述 扇 区 号 ) ，1 字 节 
用 于 描述 长 度 ， 其 他 字段 用 于 一 些 精 细 化 控制 。 一 条 
指令 的 基本 三 要 件 包括 操 作 码 、 目 标 起 始 扇 区 号 和 长 
度 ， 比 如 读 出 从 1024 扇 区 开始 的 8 个 扇 区 。 本 例 中 的 
命令 ， 则 是 写 入 从 0 扇 区 开始 的 1 个 肩 区 。 

程序 准备 好 数据 和 命令 之 后 ， 需 要 先 将 命令 发 
送 给 硬盘 ， 让 硬盘 做 好 接收 数据 的 准备 。 但 是 硬盘 和 
CPU 之 间隔 着 一 道 JO 控 制 器 ， 所 有 的 命令 和 数据 都 
需要 先 发 送 给 IO 控制 器 。 所 以 需要 用 Stor 指 令 将 命令 
写 入 到 IO 控制 器 上 的 专门 用 于 接收 命令 的 命令 寄存 
器 。 在 这 之 前 ， 程 序 还 必须 先 检查 IO 控制 器 的 状态 
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寄存 器 是 否 为 Idle 状 态 ， 如 果 状 态 寄存 器 不 为 Idle 状 
态 ， 则 说 明 LO 控 制 器 正在 执行 任务 ， 此 时 新 命令 不 
应 该 被 再 次 写 入 命令 寄存 器 。 

由 于 该 命令 有 10 字 节 ， 所 以 需要 一 个 80 位 的 命令 
寄存 器 来 存放 ， 需 要 在 地 址 空间 中 映射 10 个 地 址 。 但 
是 CPU 内 部 的 数据 寄存 器 目前 一 般 为 64 位 ， 那 就 意味 
着 需要 Stor 两 次 才能 把 一 条 命令 写 入 IO 控制 器 ， 第 一 
条 用 Stor8 指 令 写 出 去 8 字 节 ， 第 二 次 再 用 Stor2 指 令 把 
剩 下 的 2 字 节 写 出 去 。 本 例 中 假设 IO 控制 器 内 部 的 80 
位 的 命令 寄存 器 在 物理 上 被 分 成 了 两 部 分 : 一 个 64 位 
的 ， 一 个 16 位 的 。 当 然 ， 整 体 上 做 成 一 个 80 位 的 寄存 
器 也 一 样 ， 这 里 并 没有 什么 本 质 区 别 。 

IO 控制 器 必须 知道 哪个 基地 址 和 地 址 段 对 应 着 
哪个 内 部 寄存 器 ，L/O 控 制 器 内 部 需要 一 个 地 址 译 码 
器 将 全 局 地 址 翻译 成 Mux/Demux 信 号 导向 对 应 寄存 
器 。 显 然 ， 这 个 译 码 器 可 以 写 死 也 可 以 写 活 ， 比 如 图 
7-1 所 示 的 IO 控制 器 内 部 总 共有 5 个 寄存 器 〈 可 能 有 不 
同位 数 的， 如 64 位 的 、16 位 的 ， 等 等 ) 。 如 果 译 码 器 
写 死 ， 比 如 这 5 个 寄存 器 〈 假 设 共 24 字 节 容 量 ) 必须 
被 映射 到 全 局 地 址 空间 的 1024 一 1048 地 址 上 ， 那 么 设 
备 管理 程序 就 会 默认 在 设备 信息 描述 表 中 记录 这 些 定 
死 的 地 址 。 如 果 译 码 器 写 活 ， 那 么 设备 管理 器 可 以 任 
意 分 配 这 24 字 节 到 地 址 空间 的 任意 区 域 ， 比 如 被 分 配 
到 512 一 536 字 节 处 ， 那 么 ， 设 备 管理 器 就 必须 把 这 个 
映射 关系 通告 给 IO 控制 器 〈 将 基地 址 也 就 是 512 告 诉 
IO 寄存 器 即 可 ) ，IO 控 制 器 中 的 地 址 译 码 器 会 根据 
这 个 映射 关系 对 地 址 做 译 码 。 具 体 的 过 程 其 实 就 是 在 
译 码 器 内 部 增加 一 个 减法 器 ， 第 一 个 输入 就 是 设备 管 
理 通告 给 I/O 控 制 器 的 动态 分 配 到 的 基地 址 ， 第 二 个 
输入 则 来 自 每 次 访 存 操作 的 目标 地 址 。 假 设 CPU 核 心 
访问 514 号 地 址 ， 译 码 器 用 514 - 512 = 2， 证 明 该 地 址 
访问 的 是 自己 内 部 的 第 2 号 地 址 ， 于 是 找到 对 应 的 寄 
存 器 ， 将 数据 读 出 或 者 写 入 。 这 种 IO 控制 器 被 称 为 
支持 动态 分 配 地 址 资源 的 MO 控制 器 。 或 者 称 之 为 可 
灵活 配置 的 VO 控 制 器 。 

IO 控制 器 接收 到 Write10 命 令 之 后 ， 需 要 对 命令 
的 操作 码 字段 进行 译 码 ， 看 看 到 底 是 读 还 是 写 ， 或 
者 其 他 操作 。 本 例 中 为 写 入 操作 ， 那 么 IO 控制 器 便 
要 做 下 面 这 一 系列 动作 : 先 将 状态 寄存 器 从 Idle 变 为 
Busy 以 表明 不 要 再 发 新 的 命令 给 我 了 ， 我 忙 着 呢 ; 
然后 ， 我 要 将 数据 发 送 给 硬盘 ， 而 且 按照 SCSI 协 议 
的 交互 方式 ， 需 要 先 收 到 硬盘 发 过 来 一 个 “已 准备 
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好 ” (Ready for Transfer, XFER_RDY) 的 消息 ， 才 
可 以 发 送 数据 ， 每 次 最 多 连续 发 64 字 节 之 后 ， 再 等 待 
对 方 说 “已 准备 好 ”才能 继续 发 送 ， 后 端 与 硬盘 连接 
的 线路 上 最 大 每 次 可 以 发 送 16 字 节 数 据 ， 数 据 需要 
由 CPU 核心 写 入 到 我 的 SRAM 缓 冲 存储 器 中 ， 只 要 收 
到 硬盘 的 XFER_RDY 消 息 ， 我 就 立刻 将 状态 寄存 器 
变 为 “Ready” 状 态 ， 从 而 表示 我 做 好 接收 数据 的 准 
ЖТ: CPU 看 到 这 个 状态 ， 就 可 以 向 缓冲 区 中 写 入 数 
据 ， 只 要 攒 够 了 16 字 节 ， 我 就 赶紧 发 送 一 个 数据 包 到 
对 方 ， 发 送 4 次 ， 等 待 一 个 应 答 消 息 ， 再 发 送 4 次 ， 一 
直到 发 完 为 止 ， 硬 盘 会 发 送 一 个 最 终 的 写成 功 消 息 ; 
只 要 收 到 这 个 消息 ， 我 就 需要 将 状态 寄存 器 更 新 为 
Finished 状 态 。 上 述 的 这 些 逻 辑 ， 必 须 被 预先 写 死 
在 I/O 控 制 器 内 部 的 总 控制 模块 和 后 端 接口 控制 模块 
中 。 还 记得 第 6 章 中 介绍 过 的 Micro Sequencer/ 硬 状态 
机 么 ? IO 控制 器 内 部 其 实 就 是 一 个 大 的 硬 状态 机 ， 
其 根据 输出 的 结果 决定 下 一 步 要 做 什么 ， 而 这 个 判断 
过 程 是 不 需要 执行 程序 指令 代码 的 ， 或 者 说 程序 已 经 
被 固化 到 状态 机 硬件 逻辑 电路 中 了 。 

再 说 回来 ，I/O 控 制 器 收 到 写 命令 之 后 ， 除 译 
码 、 状 态 机 就 位 之 外 ， 还 需要 将 该 指令 发 送 给 后 端 接 
口 控制 器 ， 后 者 则 将 该 命令 整体 向 与 硬盘 连接 的 链 路 
上 发 送 。 硬 盘 收 到 该 命令 之 后 ， 其 内 部 的 程序 代码 分 
析 该 指令 (为 什么 硬盘 不 使 用 硬 状态 机 来 处 理 命令 
呢 ? 因为 硬盘 里 要 运行 的 程序 逻辑 实在 是 非常 复杂 ， 
所 以 为 了 灵活 性 ， 不 得 不 用 CPU+ 程 序 代 码 的 方式 来 
处 理 命令 和 读 写 盘 片 上 的 数据 ) ， 并 在 其 内 部 的 缓冲 
存储 器 中 分 配对 应 的 空间 ， 然 后 返回 一 个 XFER_RDY 
消息 给 IO 控制 器 。XFER_RDY 消 息 输 入 到 IO 控制 器 译 
码 电路 后 ， 便 触发 /O 控 制 器 的 硬 状态 机 进入 “准备 从 
SRAM 中 读 出 CPU 发 来 的 数据 然后 发 送 给 硬盘 ”这 个 状 
态 。 读 出 多 少数 据 ， 当 然 是 由 Write10 命 令 中 的 Transfer 
Length 字 段 决定 ， 该 字段 会 被 /O 控 制 器 提取 并 保存 在 
内 部 的 控制 寄存 器 中 用 于 持续 向 状态 机 输送 信号 。 

再 来 看 CPU 核 心里 的 程序 ， 其 将 命令 写 入 到 命令 
寄存 器 之 后 ， 就 会 持续 不 断 或 者 间隔 一 定时 间 地 去 
查询 IO 控制 器 的 状态 寄存 器 ， 看 看 其 是 否 处 于 Ready 
态 。 一 旦 发 现状 态 寄存 器 处 于 Ready 态 ， 则 开始 从 主 
存 中 存储 数据 的 区 域 源源 不 断 地 把 数据 移动 到 IO 控 
制 器 的 SRAM 缓 冲 区 中 ， 我 们 假设 该 缓冲 区 的 大 小 刚 
好 容纳 一 个 扇 区 ， 也 就 是 512 字 节 的 数据 。 我 们 假设 
该 程序 先 把 数据 从 主 存 使 用 Load 指 令 装载 到 内 部 寄存 
器 A， 再 从 寄存 器 A 将 数据 使 用 Stor 指 令 存储 到 SRAM 
缓冲 区 所 对 应 的 地 址 上 。 

那么 ，IO 控 制 器 如 何 判断 SRAM 中 已 经 存储 了 多 
少数 据 了 呢 ? 显然 ， 需 要 有 个 写 指针 来 记录 当前 的 缓 
冲 区 水 位 线 ， 回 顾 一 下 第 1 章 介绍 过 的 FIFO， 这 里 又 
用 到 了 相关 知识 。 图 中 位 于 地 址 524 一 525 的 16 位 寄存 
器 (紫色 ) 便 是 用 于 存储 写 指针 的 寄存 器 ， 描 述 512 
字 节 需要 9 位 (2? = 512) , 1 字 节 只 有 8 位 ， 放 不 下 ， 


所 以 只 好 用 2 字 节 了 。 程 序 每 写 入 缓冲 区 一 批 数据 ， 
就 将 对 应 的 写 指针 也 算出 来 ， 并 且 用 Stor 指 令 存 储 到 
该 寄存 器 。 同 时 ，IO 控 制 器 由 于 不 断 地 读 取 缓 冲 区 
将 数据 取 走 并 发 送 到 硬盘 接口 控制 器 ， 显 然 也 需要 一 
个 读 指针 来 记录 它 读 取 的 位 置 。 另 外 ， 为 了 防止 缓冲 
区 溢出 ，IO 控 制 器 是 否 需要 一 个 缓冲 区 空 满 标识 寄 
存 器 用 于 记录 缓冲 区 的 状态 呢 ? 该 寄存 器 由 IO 控制 
器 总 控 模 块 负责 、 根 据 读 指针 和 写 指针 来 计算 ， 并 在 
每 个 时 钟 周期 都 更 新 ， 程 序 一 侧 则 在 每 次 存 入 数据 之 
前 都 检查 该 标识 寄存 器 以 确保 缓冲 区 不 溢出 。 但 是 如 
果 仅仅 记录 空 和 满 ， 这 并 不 足以 让 程序 一 侧 知道 本 次 
可 以 存 入 多 少数 据 到 缓冲 区 中 。 缓 冲 区 如 果 为 空 ， 则 
问题 好 解决 ， 程 序 可 以 存 入 任意 小 于 缓冲 区 容量 的 数 
据 ; 缓冲 区 如 果 为 满 ， 问 题 也 好 解决 ， 程 序 暂停 发 送 
就 是 了 。 但 是 多 数 时 候 缓冲 区 都 是 非 空 未 满 状 态 ， 此 
时 程序 一 侧 必 须 明确 知道 缓冲 区 还 剩 下 多 少 空余 空间 
可 供 存 入 。 程 序 一 侧 可 以 通过 读 取 读 指针 寄存 器 ， 来 
与 上 一 次 的 写 指针 做 比较 ， 从 而 决定 本 次 存 入 多 少数 
据 。 所 以 ， 我 们 不 需要 设置 独立 的 空 满 标记 寄存 器 ， 
程序 自行 计算 判断 就 可 以 。 


思考 一 下 ，1/O 控 制 器 上 的 控制 寄存 器 ， 如 读 指 
针 、 写 指针 、 空 满 标识 寄存 器 等 ， 都 位 于 全 局 地 址 
空间 中 可 被 核心 直接 寻 址 访问 ， 那 么 核心 是 否 可 以 
缓存 这 些 地 址 上 的 数据 呢 ? 

显然 不 可 以 ! 绝对 不 可 以 。 比 如 某 时 刻 核心 将 
空 满 标识 寄存 器 读 入 并 判断 缓冲 区 未 满 ， 过 了 一 段 
时 间 ，IO 控 制 器 更 新 了 空 满 标识 寄存 器 为 满 ， 但 是 
核心 缓存 中 的 这 个 地 址 的 数据 依然 是 未 满 ， 则 核心 做 
出 了 错误 的 判断 ， 继 续 写 入 了 新 数据 到 缓冲 区 ， 于 
是 错误 地 覆盖 了 数据 ， 后 果 非 常 严重 。 另 外 ， 很 显 
然 ， 针 对 IO 地 址 区 域 的 访问 也 必须 保证 顺序 ， 不 能 
乱 序 执行 ， 因 为 这 些 外 部 IO 控制 器 的 寄存 器 之 间 本 
身 就 是 有 时 序 依 赖 性 的 。 比 如 只 有 当 状态 寄存 器 为 
Idle 时 ， 才 可 以 将 命令 写 入 到 命令 和 寄存器。 那么 ， 如 
何 控制 对 这 些 地 址 上 的 数据 不 做 缓存 ? 在 第 6 章 中 也 
提 到 过 ， CPU 提供 了 MTRR 寄 存 器 ， 在 这 里 可 以 设 
置 针对 哪 一 段 地 址 空间 不 允许 缓存 ， 以 及 保持 什么 
样 的 时 序 一 致 性 。 那 么 核心 再 做 访 存 请 求 时 ， 缓 存 
控制 器 就 不 会 缓存 这 些 数据 了 ， 每 次 访问 都 不 会 命 
中 ， 那 请 求 都 会 发 送 到 外 部 访 存 网 络 上 ， 于 是 核心 
也 就 可 以 访问 到 最 新 数据 了 。 同 时 ， 流 水 线 发 射 控 
制 单元 也 会 根据 访 存 的 目标 地 址 是 否 要 求 保持 强 时 
序 一 致 性 ， 从 而 判断 当前 指令 是 否 可 以 提前 执行 。 


假设 后 端的 硬盘 接口 控制 器 每 次 最 大 可 以 连续 传 
输 64 字 节 内 容 ， 那 么 ，L/O 控 制 器 总 控 模块 在 每 个 时 
钟 周 期 都 会 将 写 指针 与 读 指针 相 减 ， 判 断 结果 是 否 大 
于 64: 如 果 结 果 为 是 ， 同 时 上 一 份 数据 如 果 已 经 发 送 


完毕 ， 则 再 读 出 64 字 节 发 送 到 后 端 硬盘 接口 控制 器 ; 
如 果 结 果 为 否 ， 则 I/O 控 制 器 需要 等 待 更 多 的 数据 积 
攒 ， 这 样 可 以 增加 后 端的 吞吐 量 。 

当 硬 盘 成 功 接收 了 全 部 512 字 节 之 后 〈 硬 盘 是 知 
道 本 次 IO 的 长 度 的 ， 因 为 一 开始 就 把 Write10 命 令 发 
送 给 硬盘 了 ) ， 硬 盘 中 的 程序 一 看 本 次 数据 全 部 传送 
完毕 ， 则 在 后 台 将 数据 写 入 到 盘 片 〈 硬 盘 必 须 积 揭 至 
少 一 个 扇 区 的 数据 之 后 才能 开始 写 入 盘 片 ， 否 则 如 果 
写 到 一 半 断 电 了 ， 该 扇 区 就 会 一 半 新 一 半 旧 ， 这 是 不 
允许 的 ) ， 成 功 之 后 ， 向 IO 控制 器 返回 一 个 写 入 成 
功 消息 。IO 控 制 器 收 到 该 消息 ， 则 将 状态 寄存 器 变 
为 Finished 状 态 。 

当 程 序 发 送 完 所 有 512 字 节 之 后 ， 开 始 不 断 地 
检测 IO 控制 器 上 的 状态 寄存 器 ， 看 看 有 没有 变 成 
Finished 状 态 。 如 果 状 态 寄存 器 变 成 Finished 状 态 ， 
则 本 次 IO 操作 完成 ， 于 是 将 Idle 状 态 码 Stor 到 状态 寄 
存 器 ，IO 寄 存 器 内 部 的 状态 机 复原 归 位 ， 等 待 下 一 
次 VO 请 求 的 到 来 。 

后 端 硬盘 接口 控制 器 其 实 是 一 个 SCSI 协 议 硬 状态 
机 ， 其 根据 SCSI 协 议 的 交互 规则 ， 每 当 发 出 或 者 收入 
一 个 SCSI 数 据 /请 求 /应 答 消息 ， 自 己 的 状态 就 做 相应 
改变 ， 以 进行 下 一 步 操作 。 后 端 硬盘 接口 控制 器 可 以 
在 LO 控制 器 总 控 模块 的 控制 之 下 ， 直 接 读 写 SRAM 缓 
冲 区 。 所 以 ， 这 个 专门 用 于 在 后 端 与 硬盘 打交道 的 、 
具有 SCSI 协 议 识 别 和 交互 执行 能 力 的 控制 器 ， 称 之 为 
SCSI 通 道 控制 器 。 后 文中 你 会 看 到 ， 该 控制 器 不 仅 可 
以 用 线 缆 直 连 一 个 硬盘 ， 也 可 以 同时 接 入 多 个 硬盘 。 
其 被 包含 在 IO 控制 器 这 个 大 角色 之 内 ， 作 为 后 者 的 
一 部 分 。LO 控 制 器 的 前 端 采用 Ring 网 络 控制 器 (图 
7-1 中 的 WV， 或 者 可 以 称 为 Ring 通 道 控制 器 、Ring 控 制 
器 等 ) 直接 与 CPU 片 内 访 存 网 络 挂 接 ， 直 接 接 受 核心 
的 地 址 访问 请 求 。1/O 控 制 器 总 控 模 块根 据 状态 机 更 
新 自己 的 状态 寄存 器 ， 同 时 操纵 后 端 SCSI 通 道 控 制 器 
与 硬盘 收发 数据 ， 实 现 全 局 协调 。 所 以 ， 整 个 IO 控 
制 器 在 这 里 的 角色 又 被 称 为 一 种 协议 转换 器 ， 其 前 端 
接受 访 存 协议 ， 后 端 与 硬盘 之 间 却 以 SCSI 协 议 通 信 ， 
SCSI 协 议 中 已 经 不 包含 任何 内 存 地 址 信息 了 ， 只 有 扇 
区 地 址 /号 和 数据 以 及 其 他 状态 信息 。 所 以 ，L/O 控 制 
器 就 是 访 存 网 络 的 边界 。 如 果 IO 控 制 器 后 端的 接口 控 
制 器 与 硬盘 之 间 采 用 ATA 协 议 规定 的 命令 格式 和 交互 
方式 ， 前 端 与 核心 和 MC 的 交互 方式 不 变 ， 那 么 该 IO 
控制 器 就 被 称 为 ATA 通 道 控制 器 。 同 理 ， 存 储 系统 中 
还 有 FC、SAS 控 制 器 ， 它 们 的 套路 都 是 类 似 的 。 

有 了 写 IO 的 执行 过 程 分 析 ， 我 们 再 来 看 看 读 IO 
的 执行 过 程 ， 应 该 理解 起 来 会 比较 顺畅 了 。 比 如 要 
读 出 扇 区 100 的 内 容 ， 同 样 ， 先 将 读 命令 生成 在 主 存 
中 ， 然 后 向 IO 控制 器 发 送 该 命令 。IO 控 制 器 拿 到 命 
令 ， 状 态 机 就 位 ， 向 后 端 硬盘 发 送 该 命令 ， 并 将 自己 
的 状态 寄存 器 更 新 为 Reading 状 态 。 硬 盘 不 断 将 数据 
返回 ， 后 端 接口 控制 器 将 数据 收 到 之 后 写 入 缓冲 区 并 
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更 新 写 指针 ， 程 序 一 侧 则 不 断根 据 写 指针 和 读 指针 的 
差 值 来 判断 目前 缓冲 区 内 的 数据 量 ， 并 不 断 地 将 数据 
读 出 并 写 入 主 存 中 预先 分 配 好 的 空间 。 当 硬盘 传输 
完 所 有 数据 之 后 ， 发 送 一 个 传输 完成 信号 给 IO 控制 
器 ， 后 者 更 新 自身 的 状态 寄存 器 到 Finished 状 态 。 程 
序 一 侧 则 继续 将 缓冲 区 数据 全 部 拿 走 ， 本 次 IO 结束 。 


IO 控制 器 上 的 SRAM 缓 冲 区 也 位 于 全 局 地 址 空 
间 中 可 被 直接 寻 址 ， 那 么 这 块 存储 器 空间 是 否 允许 
缓存 呢 ? 

答案 是 ， 可 以 允许 缓存 ， 但 是 这 样 没有 意义 ， 
而 且 拖 慢性 能 。 试 起， 既然 要 往 硬盘 写 数据 ， 结 果 
数据 都 被 缓存 在 核心 里 了 ，IO 控 制 器 缓冲 区 反而 没 
有 数据 进来 ， 那 么 硬盘 那 一 侧 就 迟 迟 收 不 到 数据 ， 
本 次 IO 就 会 一 直 处 于 未 完成 状态 ，IO 控 制 器 的 状 
态 寄 存 器 一 直 处 于 Ready 状 态 等 待 数据 到 来 ， 硬 盘 
一 侧 的 程序 也 在 不 断 循环 尝试 接收 数据 ， 因 为 for 循 
环 代码 中 的 i 值 尚未 达到 命令 中 的 长 度 值 ， 这 样 极 大 
浪费 资源 。 而 且 ， 这 些 缓存 起 来 的 数据 是 根本 没有 
任何 加 速效 果 的 ， 因 为 这 些 数据 的 大 本 营 是 IO 控制 
器 上 的 缓冲 区 ， 这 些 数据 是 准备 发 给 硬盘 的 ， 不 会 
有 其 他 任何 程序 闲 来 无 事 访问 这 块 空间 中 的 数据 。 
就 算 有 程序 要 访问 该 扇 区 的 数据 ， 那 么 那个 程序 也 
会 发 一 条 SCSI 命 令 给 硬盘 读 出 数据 ， 而 不 是 直接 用 
访 存 指令 访问 缓冲 区 ， 所 以 对 这 块 数据 进行 缓存 毫 
无 意义 。 


在 上 述 过 程 中 ， 程 序 可 谓 是 操 碎 了 心 ， 什 么 都 得 
管 : IO 控制 器 的 状态 ， 得 盯 着 ， 缓 冲 区 还 剩 多 少 空 
间 ， 得 算 着 ， 数 据 得 一 点 一 点 地 往 那 传 着 ， IO 是 否 
已 完成 ， 得 试 着 。CPU 也 累 散 了 架 ， 为 了 传 点 数据 过 
去 ， 自 己 得 先 从 SDRAM 把 数据 读 到 内 部 寄存 器 ， 再 
从 内 部 寄存 器 把 数据 存 到 缓冲 区 里 。 

人 们 将 这 种 由 CPU 亲 手 从 内 存 中 拿 出 数据 写 入 外 
部 IO 控制 器 ， 或 者 从 IO 控制 器 中 取出 再 写 入 SDRAM 
的 过 程 ， 叫 作 Programmed IO (PIO) 过 程 ， 也 就 是 数 
据 移动 是 靠 程序 代码 中 一 条 一 条 的 Load/Stor 指 令 来 完 
成 的 。 同 时 ， 人 们 将 这 种 由 程序 来 不 断 地 读 取 状 态 寄 
存 器 来 判断 MO 完成 状态 的 方式 称 为 轮 询 (Polling) , 
也 就 是 不 断 地 探 询 。 这 两 个 手段 非常 低 效 。 如 果 是 单 
核心 CPU， 那 么 核心 在 挪动 数据 的 时 候 ， 就 不 能 做 其 
他 任务 。 虽 然 单 核心 也 是 可 以 多 线程 轮流 执行 的 ， 但 
是 每 次 执行 到 发 出 MO 请 求 的 这 个 线程 ， 该 线程 都 会 
把 时 间 片 全 部 用 完 ， 再 加 上 需要 不 断 读 取 状 态 寄存 器 
来 判断 IO 完成 状态 ， 这 对 CPU 的 消耗 非常 高 。 

于 是 ， 人 们 自然 地 想到 ， 如 果 能 够 把 命令 和 数 
据 所 在 的 SDRAM 中 的 地 址 指针 告诉 MO 控制 器 ， 后 者 
自行 到 主 存 中 取 数据 ， 缓 冲 区 还 剩 多 少数 据 ， 程 序 根 
本 不 管 ， 爱 剩 多 少 就 多 少 ， 完 全 由 IO 控制 器 自行 解 


可 大 话 计算 机 一 -计算 机 系统 底层 架构 原理 极限 剖析 


R: 剩 多少 ，IO 控 制 器 就 从 主 存 读 多 少 ， 满 了 就 暂 
停 ， 完 全 自治 。LO 控 制 器 拿 到 数据 之 后 将 其 写 入 后 
端 硬盘 ， 硬 盘 完成 写 入 数据 之 后 ， 能 够 用 中 断 的 方 
式 告诉 CPU“ 完 成 了 ! ”， 然 后 触发 后 续 的 程序 逻 
辑 ， 这 显然 效率 会 高 很 多 。 当 然 ， 这 样 做 也 自然 会 增 
加 IO 控制 器 内 部 的 控制 逻辑 的 复杂 度 。 总 而 言 之 ， 
这 些 事 ， 哪 一 样 也 省 不 掉 ， 程 序 不 去 做 ， 那 就 只 有 让 
IO 控制 器 自己 去 做 ， 软 件 不 做 ， 那 就 交 给 硬件 多 做 
一 些 ， 软 件 就 简单 一 些 。 

Programmed IO 就 像 大 人 一 勺 一 勺 地 喂 婴 儿 一 
样 ， 有 时 候 勺 子 到 嘴 边 ， 婴 儿 就 是 不 张嘴 ， 那 就 一 
直 等 ， 有 必要 还 得 哄 着 ， 大 人 要 眼睛 不 离 婴 儿 ， 察 言 观 
色 ， 一 有 机 会 就 喂 上 一 口 。 为 人 父母 的 读者 都 体会 过 这 
个 过 程 。 你 希望 什么 ? 当然 是 把 饭 摆 在 婴儿 面前 ， 告 诉 
他 /她 ， 这 是 饭 ， 那 是 汤 ， 勺 子 在 这 里 ， 任 婴儿 自己 吃 。 


7.1.2 DMA+ 中 断 模式 


为 了 实现 上 述 愿 望 ， 我 们 在 IO 控制 器 中 增加 一 
个 模块 ， 这 个 模块 叫 作 直 接 内 存 存 取 (DMA，Direct 
Memory Access) 引擎 ， 或 者 DMA 控 制 器 〈 叫 引擎 
听 着 更 有 格调 ， 如 图 7-3 所 示 。 顾 名 思 义 ， 正 是 由 
该 模块 负责 主动 从 主 存 中 取 回 数据 〈 写 IO 时 ) 或 者 
将 数据 写 入 主 存 〈 读 IO 时 ) 。 该 模块 内 部 有 对 应 
的 计数 电路 ， 只 要 给 其 一 个 基地 址 指针 和 对 应 的 长 
度 〈 字 节 数 ) 写 入 其 命令 寄存 器 ， 然 后 按 一 下 按钮 
(向 其 控制 寄存 器 中 对 应 位 写 1。 该 控制 寄存 器 又 被 
称 为 Doorbell Register) ， 它 就 开始 工作 ， 不 断 地 直 
接 向 MC 发 出 访 存 请 求 ， 从 主 存 中 将 数据 读 出 并 写 入 
SRAM 缓 冲 区 ， 或 者 从 SRAM 缓 冲 区 将 数据 读 出 并 写 
入 主 存 。 每 完成 一 次 访 存 ， 电 路 就 将 基地 址 与 上 次 访 
存 的 长 度 相 加 再 输入 到 计数 器 中 ， 并 将 该 值 与 待 访问 
数据 的 结束 地 址 做 比较 ， 如 果 还 没有 达到 ， 则 继续 
发 出 访 存 请 求 ， 直 到 结束 为 止 。 此 时 DMA 控 制 器 会 
更 新 自己 的 状态 寄存 器 为 Finished 状 态 ， 以 告诉 1/O 控 
制 器 总 控 模 块 访 存 操作 结束 。DMA 控 制 器 访 存 时 ， 
CPU 核心 可 以 继续 执行 其 他 线程 ， 这 个 过 程 不 会 阻塞 
核心 流水 线 ， 也 不 用 核心 亲自 去 移动 数据 ， 这 样 就 降 
低 了 CPU 的 耗费 。 我 们 将 这 种 帮助 CPU 处 理 一 些 事情 
从 而 解脱 CPU 的 运算 资源 的 方法 称 为 Ooad СНВ 
负 ) ， 比 如 “DMA 引 擎 卸载 了 CPU 的 移动 数据 的 过 
程 ”。 下 面 我 们 来 详细 地 介绍 一 下 利用 DMA+ 中 断 模 
式 处 理 硬盘 写 JO 时 候 的 流程 。 

首先 ， 程 序 将 要 写 入 的 数据 以 及 SCSI 命 令 在 主 存 
中 准备 好 。 然 后 ， 程 序 先 读 取 IO 控 制 器 的 状态 寄存 
器 的 值 ， 看 一 下 其 是 否 为 Idle 状 态 。 如 果 状 态 寄存 器 
的 值 不 是 Idle 状 态 ， 程 序 可 以 循环 检测 或 者 隔 一 段 时 
间 检 测 ， 或 者 把 自己 设置 为 休眠 / 挂 起 状态 (也 就 是 通 
知 线程 调度 器 ， 我 暂时 不 想 运 行 了 ， 你 先 调度 别 的 线 
程 运 行 吧 ， 下 次 调度 我 的 时 候 我 再 来 尝试 读 该 状态 寄 


存 器 看 看 是 不 是 Idle 态 ) 。 直 到 状态 寄存 器 的 值 检测 
到 为 Idle 态 时 ， 则 将 SCSI 命 令 所 在 的 基地 址 ， 也 就 是 
2048， 写 入 到 LO 控制 器 的 命令 指针 寄存 器 中 。 对 于 
一 个 64 位 的 地 址 空间 ， 任 何 地 址 都 是 64 位 长 的 ， 所 以 
命令 指针 寄存 器 只 需要 64 位 就 够 了 。 相 比 把 整个 命令 
存 入 寄存 器 而 言 ， 只 把 命令 所 在 的 地 址 指针 存 入 寄存 
器 可 以 节约 2 字 节 的 寄存 器 空间 。 接 着 ,程序 继续 把 
数据 所 在 的 基地 址 写 入 到 数据 指针 寄存 器 中 。 

然后 ， 程 序 需要 告诉 MO 控制 器 “命令 和 数据 的 
位 置 已 经 给 你 了 ， 现 在 你 需要 自己 去 主 存 中 把 命令 和 
数据 取 回 然后 执行 ”， 当 然 ， 程 序 只 需要 将 IO 控制 
器 的 控制 寄存 器 中 的 对 应 的 “开始 执行 ”控制 位 置 1 
就 可 以 了 。 置 1 之 后 ， 程 序 可 以 选择 两 种 模式 来 监控 
这 个 IO 的 完成 。 一 种 是 上 文中 的 Polling 模 式 ， 也 就 
是 从 此 开始 不 断 读 取 IO 控制 器 的 状态 寄存 器 ， 直 到 
状态 寄存 器 已 经 是 Finished 状 态 ， 但 这 样 很 浪费 CPU 
性 能 。 另 一 种 办 法 则 是 ， 程 序 直接 将 自己 休眠 或 者 说 
挂 起 ， 也 就 是 调用 线程 调度 程序 所 提供 的 函数 ， 比 如 
Suspend()， 该 函数 会 修改 线程 调度 控制 数据 结构 ， 
标记 该 线程 下 次 不 再 被 调度 运行 。 当 然 ， 该 线程 不 
能 永远 被 休 眼 ， 仅 当 I/O 完 成 之 后 再 运行 该 线程 。 所 
以 Suspend() 函 数 要 向 线程 调度 程序 通告 “ 当 I/O 完 成 
这 个 事件 时 请 把 我 唤醒 ”， 所 谓 唤醒 就 是 将 该 线程 
设置 为 可 被 调度 执行 状态 ， 一 有 机 会 便 会 再 次 被 执 
行 。Suspend() 函 数 下 游 需 要 将 每 个 线程 的 唤醒 条 件 
都 记录 在 一 些 数据 结构 中 以 追踪 。 同 时 该 线程 需要 
在 Suspend() 函 数 调用 之 后 紧 接着 安排 一 句 读 取 状 态 
寄存 器 的 代码 ， 因 为 被 唤醒 之 后 ， 该 线程 会 继续 从 
Suspend0 函 数 之 后 的 下 一 行 代码 开始 执行 。 此 时 状态 
寄存 器 可 能 会 是 Finished 状 态 ， 但 也 有 可 能 遇 到 了 某 
种 错误 从 而 显示 为 其 他 状态 ， 所 以 被 唤醒 的 线程 需要 
自行 判断 状态 寄存 器 的 状态 然后 做 出 不 同 的 响应 。 
为 IO 完成 触发 了 该 线程 继续 执行 ， 该 线程 就 可 以 继 
续 做 其 他 事情 了 。 那 么 又 是 谁 在 IO 完成 之 后 将 该 线 
程 唤醒 的 呢 ? 下 文中 将 会 介绍 。 

再 说 回来 。IO 控 制 器 总 控 模 块 的 电路 会 在 这 个 
高 电压 的 驱使 之 下 ， 开 始 做 下 一 步 动 作 。 首 先 ，LIO 
控制 器 自行 将 自己 的 状态 寄存 器 设置 为 Busy 状 态 ， 这 
相当 于 在 门口 挂 了 个 请 勿 打扰 的 牌子 。 然 后 ，L/O 控 
制 器 将 控制 寄存 器 复位 ， 这 就 相当 于 在 飞机 上 你 按 下 
了 呼叫 乘务 员 (LO 控制 器 的 按钮 指示 灯 ， 乘 务 员 
过 来 时 顺手 把 灯 按 灭 ，L/O 控 制 器 也 是 这 么 做 的 。 下 
一 步 动作 则 是 将 命令 指针 从 命令 指针 寄存 器 中 取出 ， 
接着 把 该 指针 、 访 存 长 度 〈 本 例 中 所 使 用 的 SCSI 命 
令 为 10 字 节 长 ) 、 访 存 源 (MC 控 制 器 ) 、 访 存 目 
标 (IO 控制 器 的 命令 寄存 器 ) 这 4 大 信息 一 同 写 入 到 
DMA 引 擎 上 的 命令 寄存 器 中 。 然 后 ， 程 序 向 DMA 引 
擎 的 控制 寄存 器 中 对 应 的 位 写 1 (启动 传输 ) ， 在 该 高 
电压 驱使 之 下 ，DMA 引 擎 将 自己 的 状态 寄存 器 更 新 为 
Busy 态 〈 图 中 的 B) ， 同 时 立刻 拿 着 该 指针 向 MC 控 
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制 器 发 起 访 存 读 请 求 ， 每 次 请 求 的 长 度 看 访 存 网 络 能 
够 接受 的 最 大 长 度 而 定 ， 比 如 最 大 长 度 是 8 字 节 ， 那 
么 这 10 字 节 的 内 容 要 发 出 两 轮 请 求 才 可 以 获取 到 。 
MC 返 回 的 数据 由 DMA 引 擎 在 访 存 目标 字段 的 控制 
之 下 ， 被 写 入 LO 控制 器 的 命令 寄存 器 中 ， 然 后 DMA 
引擎 更 新 自己 的 状态 寄存 器 为 Idle 态 〈 图 中 的 D 。 该 
状态 寄存 器 的 值 会 输入 给 IO 总 控 模 块 ， 一 旦 发 现 从 
Busy 变 为 Idle， 则 证 明 上 一 次 传输 任务 已 经 完成 ， 命 
令 已 经 到 达 了 命令 寄存 器 。 

然后 ，I/O 控 制 器 开始 解析 该 命令 ,发 现 该 指 
令 是 让 硬盘 写 入 扇 区 0， 长 度 为 1， 也 就 是 只 写 一 个 
扇 区 ， 则 将 数据 指针 寄存 器 中 的 指针 、 访 存 长 度 
(512 字 节 ， 因 为 本 次 W/O 只 写 一 个 扇 区 ) 、 访 存 类 型 
GE) 、 访 存 源 (MC 控制 器 ) 、 访 存 目标 (SRAM 
缓冲 区 指针 ) 再 次 写 入 到 DMA 引 擎 的 命令 寄存 器 
中 ， 同 时 ， 把 接收 到 的 SCSI 指 令 委托 后 端 硬盘 接口 控 
制 器 向 硬盘 发 出 ， 并 等 待 硬盘 回复 XFER_RDY 信 号。 
IO 控制 器 主 控 模 块 将 启动 传输 控制 位 写 入 到 DMA 引 
擎 控制 寄存 器 ， 启 动 传输 ，DMA 再 次 更 新 自身 状态 
寄存 器 为 Busy 态 ， 同 时 从 MC 源源 不 断 分 多 次 地 将 数 
据 复制 到 SRAM 缓 冲 区 指定 的 区 域 存放 ， 之 后 更 新 自 
己 的 状态 寄存 器 为 Idle 态 ， 通 知 IO 总 控 模 块 。 

随 着 数据 从 MC 不 断 流向 SRAM 缓 冲 区 ，IO 总 控 
模块 开始 委托 后 端 硬盘 接口 控制 器 从 SRAM 中 指定 区 
域 读 出 数据 ， 并 用 SCSI 协 议 的 交互 方式 传送 给 硬盘 。 
数据 从 MC 写 入 SRAM， 与 从 SRAM 读 出 发 送 给 硬盘 ， 
这 两 个 过 程 并 行 执行 ， 这 样 会 节约 时 间 ， 提 升 性 能 。 
随 着 对 SRAM 的 写 入 和 读 出 ，SRAM 缓 冲 区 的 读 写 指 
针 寄 存 器 不 断 地 被 更 新 ， 以 便 读 写 双 方 保持 一 致 性 。 
经 过 多 轮 传送 之 后 ， 硬 盘 将 数据 写 入 并 回复 写 入 成 功 
消息 。LO 控 制 器 接收 到 该 消息 ， 将 SRAM 缓 冲 区 清 
空 ， 同 时 更 新 自己 的 状态 寄存 器 为 Finished 状 态 。 

IO 控制 器 发 出 一 个 中 断 信号 ， 该 中 断 信号 中 包 
含 一 个 标识 号 用 于 辨别 中 断 信 号 到 底 是 哪个 IO 控制 
器 发 来 的 ， 因 为 系统 可 以 接 入 不 同 的 MO 控制 器 ， 比 
如 键盘 IO 控制 器 、 硬 盘 IO 控 制 器 、 网 络 IO 控 制 器 、 
显示 IO 控制 器 等 。 该 信号 被 发 送 到 CPU 核心 内 部 专门 
负责 中 断 的 电路 模块 ， 该 模块 中 断 CPU 的 代码 执行 ， 
触发 CPU 自动 保护 现场 将 当前 线程 的 PC 等 各 种 指针 
记录 保存 到 专门 的 数据 结构 中 ， 并 将 各 数据 寄存 器 压 
入 该 线程 当前 的 栈 中 ) ， 然 后 查找 中 断 向 量 表 找 到 对 
应 的 中 断 服务 程序 。 该 IO 控 制 器 对 应 着 硬盘 IO 控制 
器 中 断 服务 程序 ，CPU 跳 转 到 该 中 断 服 务 程序 执行 。 
该 中 断 服 务 程序 开始 与 IO 控制 器 通信 ， 读 取 其 状态 
寄存 器 看 看 到 底 为 什么 发 中 断 。 如 果 状 态 寄存 器 已 经 
是 Finished 状 态 ， 证 明 上 一 次 IO 完成 导致 了 该 中 断 ， 
于 是 该 中 断 服务 程序 将 Idel 状 态 码 更 新 到 状态 寄存 器 
中 ， 复 位 IO 控制 器 以 便 后 续 任何 一 个 线程 可 以 发 送 
I/O 请 求 给 它 执行 。 中 断 服务 程序 还 必须 将 由 于 等 待 
这 个 1/O 完 成 而 被 挂 起 的 线程 置 于 可 被 运行 状态 ， 这 


个 事件 可 以 由 中 断 服务 程序 亲自 来 修改 对 应 的 线程 调 
度数 据 结构 。 或 者 更 加 优雅 的 方式 是 ， 中 断 服务 程序 
只 将 该 IO 完成 状态 记录 到 某 个 数据 结构 中 ， 然 后 由 
线程 调度 程序 每 次 运行 时 检查 该 数据 结构 ， 将 其 与 线 
程 的 唤醒 事件 匹配 ， 谁 当时 登记 了 这 个 事件 ， 谁 就 被 
唤醒 。 中 断 服 务 程序 完成 该 执行 的 逻辑 之 后 ， 最 后 执 
行 一 条 特殊 的 指令 iret (Interrupt Return) ，CPU 收 到 
该 指令 之 后 ， 则 将 中 断 信 号 到 来 之 前 正在 运行 的 线程 
的 上 下 文 继续 载 入 执行 。 

程序 如 果 要 从 硬盘 读 扇 区 0， 则 需要 将 命令 准备 
好 ， 并 预先 找 内 存 管 理 程序 申请 一 块 内存 空 间 用 于 存 
放 硬盘 返 回 的 数据 。 然 后 ， 将 命令 的 基地 址 以 及 该 内 
存 空间 基地 址 ， 分 别 写 入 到 IO 控制 器 的 命令 指针 寄 
存 器 和 数据 指针 寄存 器 ， 并 向 控制 寄存 器 中 写 入 对 应 
的 控制 位 启动 JO。IO 控 制 器 解析 命令 ， 并 将 命令 发 
往 硬盘 ， 从 硬盘 获取 数据 并 写 入 SRAM 缓 冲 区 ， 然 后 
IO 控制 器 启动 DMA 引 擎 ， 后 者 将 数据 从 SRAM 搬 移 
到 主 存 中 刚才 申请 的 空间 中 。 然 后 将 状态 寄存 器 置 为 
Finished， 发 起 中 断 ， 程 序 处 理 中 断 ，IO 结 束 。 

可 以 看 到 ， 采 用 DMA+ 中 断 的 方式 来 执行 1O 操 
作 ， 程 序 做 的 事情 少 了 ，CPU 耗 费 更 低 了 ，CPU 可 以 
有 更 多 的 时 间 载 入 其 他 的 线程 继续 执行 。IO 控 制 器 
变 得 更 智能 了 ， 做 了 更 多 的 事情 。 另 外 ，IO 控 制 器 
向 地 址 空间 中 暴露 的 寄存 器 更 少 了 ，SRAM 缓 冲 区 不 
需要 暴露 了 。 一 些 之 前 被 暴露 的 寄存 器 ， 现 在 也 变 成 
内 部 私有 寄存 器 了 ， 仅 供 IO 控 制 器 自己 访问 ， 不 需 
要 被 CPU 核心 看 到 。 


DMA 控 制 器 将 数据 写 入 主 存 的 过 程 被 称 
为 DMA 写 ，DMA 从 主 存 读 出 数据 的 过 程 则 是 
DMA 读 。 


上 述 的 程序 读 写 硬盘 的 例子 展示 的 都 是 由 程序 主 
动 发 起 7O。 而 有 些 IO 过 程 并 非 由 程序 而 是 由 设备 主 
动 触发 ， 比 如 网 卡 接收 到 网 络 数据 包 ， 这 完全 是 个 异 
步 过 程 ， 根 本 无 法 预测 什么 时 候 会 发 生 。 此 时 可 以 使 
用 另外 一 种 机 制 : 网 卡 如 果 有 数据 要 主动 写 入 主 存 ， 
可 以 先 更 新 自己 的 状态 寄存 器 以 表示 收 到 了 数据 ， 然 
后 发 送 一 个 中 断 ， 中 断 处 理 程序 前 来 读 取 状 态 寄存 器 
值 检查 中 断 原 因 ， 之 后 向 内 存 管理 程序 申请 一 块 空闲 
空间 ， 然 后 将 该 空间 的 基地 址 指针 告诉 MO 控制 器 ， 
并 启动 DMA 过 程 ， 完 成 本 次 IO。 


7.1.3 DMA 与 缓存 一 致 性 


上 文中 我 们 介绍 了 IO 数据 的 流动 过 程 ， 但 却 忽 
略 了 一 个 问题 ， 那 就 是 缓存 一 致 性 问题 。 试 想 一 下 ， 
假设 程序 要 将 512 字 节 的 数据 写 入 硬盘 扇 区 0， 程 序 
首先 将 该 数据 写 入 地 址 1024 一 1535 处 ， 这 个 动作 对 


应 了 一 批 Stor 指 令 。 由 于 缓存 的 存在 ， 这 些 数据 被 经 
过 Stor 指 令 操作 之 后 ， 可 能 在 L1 或 者 L2、L3 缓 存 中 ， 
也 可 能 部 分 在 缓存 、 部 分 在 SDRAM 中 。 此 时 如 果 程 
序 启动 VO 过 程 ， 那 么 DMA 引 擎 从 1024 地 址 拿 数据 ， 
如 果 数 据 在 缓存 中 ， 就 必须 确保 把 缓存 中 的 数据 发 
送 给 DMA 引 擎 ， 这 个 过 程 只 有 靠 第 6 章 所 述 的 Cache 
Coherency (CC) 过 程 来 保证 。 

所 以 ， 访 存 网 络 上 流动 的 其 实 并 不 是 简单 的 “ 读 
某 地 址 长 度 ” 消 息 ， 而 是 附带 有 CC 标签 的 访 存 消 
息 ， 比 如 RdPrb 等 CC 标签 。 那 么 ，LIO 控 制 器 前 端 也 必 
须 有 一 个 Cache Agent 负 责 发 出 RdPrb 请 求 ， 并 接收 处 
理 对 应 的 CC 回应 消息 。 程 序 向 硬盘 写 数据 时 ，DMA 
发 出 请 求 从 主 存 中 读 出 数据 ， 此 时 IO 控制 器 前 端的 
CA 接收 该 请 求 ， 并 附带 以 RdPrb 标 签 来 将 该 请 求 广播 
给 所 有 核心 (如 果 采 用 Source Probe 模 式 ) ， 或 者 单 
播发 送 给 MC 前 端的 HA，HA 过 滤 之 后 再 发 给 对 应 的 
核心 ， 从 而 保证 缓存 一 致 性 。 

当 程 序 从 硬盘 读数 据 时 ，DMA 引 擎 需要 向 MC 写 
入 数据 ， 此 时 ，MC 的 HA 收 到 该 请 求 后 ， 需 要 发 出 
WrtBckRqst 消 息 给 所 有 核心 ， 让 它们 把 对 应 地 址 的 脏 
数据 先 写 入 主 存 ， 然 后 把 DMA 传 送 来 的 数据 写 入 主 
存 并 同时 WrtIvld 对 应 核心 上 的 缓存 数据 。 

上 述 方法 要 求 IO 控制 器 一 侧 提供 CA 并 且 在 CA 
的 硬 状态 机 中 实现 对 应 的 CC 协议 ， 对 于 IO 控制 器 而 
言 ， 这 样 做 的 成 本 较 高 。IO 控 制 器 自身 并 不 会 缓存 
主 存 中 的 数据 〈SRAM 算 是 缓冲 ， 并 不 是 缓存 ) ， 所 
以 增加 CA 的 必要 性 就 更 低 了 。 还 有 一 种 办 法 ， 则 是 
由 核心 一 侧 的 程序 控制 ， 在 通知 lO 控制 器 来 做 DMA 
读 之 前 ， 先 用 WrtBckRqst 消 息 通 知 所 有 核心 中 对 应 该 
地 址 区 间 的 缓存 WrtBek 到 主 存 ， 然 后 再 通知 DMA 读 
操作 。DMA 读 操作 期 间 ， 其 他 核心 不 应 该 再 次 访问 
DMA 读 的 地 址 区 域 ， 这 一 点 需要 用 互 斥 锁 来 保证 。 

另 一 种 解决 办 法 是 ， 将 主 存 中 被 DMA 引 擎 访问 
的 地 址 区 间 禁 止 缓存 。 这 可 以 通过 配置 MTRR 寄 存 
器 来 实现 ， 然 后 将 对 应 的 控制 位 写 入 到 IO 控制 器 的 
控制 寄存 器 ， 通 知 其 后 续 DMA 访 存 时 不 必 发 送 CC 流 
量 ， 只 需 直 接 访问 即 可 。 但 是 这 样 做 的 代价 则 是 ， 主 
存 中 用 于 DMA 访 问 的 区 域 必须 是 固定 的 ， 如 果 每 次 都 
由 负责 IO 的 程序 模块 动态 分 配 的 话 ， 指 不 定 分 配 到 哪 
个 地 址 区 段 ， 也 就 无 法 在 MIRR 中 预先 配置 禁止 缓存 。 

实际 中 ， 具 体 得 看 不 同 CPU 型 号 、 不 同 底层 系统 
软件 的 实现 方式 ， 可 能 各 不 相同 。 


7.1.4 Scatter/Gather List ( SGL ) 


第 5 章 曾 经 提 到 过 ， 程 序 所 看 到 的 连续 的 虚拟 地 
址 空间 的 数据 ， 在 物理 地 址 空间 中 的 分 布 极 有 可 能 是 
不 连续 的 ， 也 正 因 如 此 才 催 生 了 虚拟 地 址 和 页 表 ， 用 
于 将 物理 上 不 连续 的 页 面 对 上 层 体现 为 连续 。 如 果 某 
份 数据 被 分 布 在 了 物理 内 存 中 的 多 个 碎片 上 ， 那 么 程 


878 ЕОНИ 


序 就 需要 分 多 次 将 每 个 碎片 的 基地 址 都 通告 给 IO 控 
制 器 ， 启 动 多 轮 IO 过 程 ， 不 妥 不 妥 ! 

有 没有 什么 办 法 能 够 让 程序 一 次 性 向 IO 控制 器 
通告 多 个 碎片 的 基地 址 ，IO 控 制 器 批量 将 这 些 数据 
FAUR? 显然 ， 我 们 需要 一 个 清单 来 列 出 这 些 基 地 
址 ， 并 将 清单 本 身 所 在 的 基地 址 告诉 MO 控制 器 ， 然 
后 由 IO 控制 器 自行 将 清单 取 回 ， 按 照 清单 列 出 的 各 
碎片 基地 址 再 来 挨个 把 数据 拿 到 。 

这 个 清单 叫 作 Scatter/Gather List， 简 称 SGL。 当 
程序 要 向 外 部 设备 写 入 数据 时 ， 则 准备 一 个 Gather 
List， 将 要 传送 的 数据 在 内 存 中 的 各 个 碎片 的 基地 址 
填 入 Gather List， 并 将 Gather List 的 指针 通告 给 IO 控 
制 器 ，IO 控 制 器 拿 到 Gather List， 将 所 有 碎片 收集 起 
来 形成 一 份 完整 的 数据 。 当 程序 要 从 外 部 设备 读数 据 
的 时 候 ， 分 配 好 相应 大 小 的 主 存 缓冲 区 空间 ， 这 块 空 
间 也 可 能 是 碎片 化 的 ， 那 么 程序 将 所 有 碎片 基地 址 填 
入 Scatter List， 并 将 Scatter List 所 在 的 指针 通告 给 IO 
控制 器 ， 后 者 拿 到 Scatter List， 将 读 出 的 数据 分 散 存 
放 到 这 些 碎片 中 。Gather List 与 Scatter List 的 本 质 没有 
区 别 ， 它 们 只 是 用 于 不 同 的 VO 方向 上 。 

如 图 7-4 所 示 为 一 种 最 简单 

的 SGL 设 计 。 不 同 的 产品 有 不 
同 的 实现 模式 ，SGL 长 成 喻 样 
完全 取决 于 开发 IO 控制 器 的 厂 
商 。 有 些 SGL 设 计 非 常 复杂 ， 
比如 先 用 指针 指向 一 个 内 存 区 
域 ， 在 这 里 存放 另 一 些 指针 
(二 级 指针 ) ， 二 级 指针 最 终 
指向 一 条 SGL 记 录 〈 基 地 址 + 长 
E) ， 这 条 SGL 记 录 才 最 终 指 
向 数据 所 在 的 区 域 。 搞 成 这 样 
复杂 完全 是 出 于 更 加 灵活 和 可 
扩展 性 的 考量 。 当 然 ， 业 界 也 
有 一 些 标 准 可 循 ， 篇 幅 所 限 ， 这 里 就 不 展开 介绍 实际 
SGL 的 例子 了 。 
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7-4 SGL 示 意图 


7.1.5 ”使 用 队列 提升 I/O 性 能 


在 第 4 章 中 ， 我 们 全 面 了 解 了 流水 线 相关 理论 以 
及 CPU 中 的 流水 线 设计 模式 。 那 么 思考 一 下 ， 上 述 的 
IO 过 程 是 流水 线 化 的 么 ?并 不 是 。 假 设 有 两 份 数据 
等 待 写 入 硬盘 ， 程 序 先 发 送 了 第 一 个 IO 请 求 ， 将 SGL 
发 送 给 IO 控制 器 ，IO 控 制 器 解析 SGL， 取 数据 到 内 
部 缓冲 区 ， 然 后 向 后 端 硬盘 写 入 数据 ， 这 一 切 都 结束 
之 后 ， 才 能 接受 下 一 条 IO 请 求 ， 不 妥 不 妥 ! 

在 向 后 端 硬盘 写 数据 的 时 候 ， 如 果 程 序 能 够 见 缝 
插 针 的 再 向 IO 控制 器 发 送 一 个 IO 请 求 ， IO 控制 器 就 
可 以 一 边 与 硬盘 交互 ， 一 边 解析 这 个 新 收 到 的 IO 请 
求 中 的 SGL， 然 后 从 主 存 中 取 下 一 份 数据 ， 不 断 填 满 
缓冲 区 。 硬 盘 返 回 上 一 个 命令 的 成 功 响应 之 后 ，LIO 
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控制 器 马上 再 发 一 个 新 指令 给 硬盘 接着 执行 。 这 样 的 
话 ， 整 个 过 程 没有 浪费 任何 时 间 ， 资 源 全 部 被 利用 了 
起 来 ， 性 能 也 就 上 来 了 。 

如 果 将 IO 控制 器 内 部 也 做 成 流水 线 方式 来 处 理 
IO 请 求 的 话 ， 那 么 将 会 有 这 样 几 个 大 步骤 : 取 命令 
和 取 SGL、 解 析 命 令 生成 对 后 端 硬盘 接口 控制 器 的 控 
制 信号 、 解 析 SGL 生 成 对 DMA 引 擎 的 控制 信号 、 从 主 
存 取 数据 到 缓冲 区 、 从 缓冲 区 传送 数据 给 硬盘 。 这 样 
可 以 形成 5 级 流水 线 ， 那 就 意味 着 理论 上 可 以 并 行 执 
行 5 个 IO 请 求 。 

那么 程序 在 发 出 第 一 条 IO 请 求 〈 将 命令 和 SGL 
的 基地 址 分 别 写 入 IO 控制 器 上 对 应 的 寄存 器 并 写 入 
控制 寄存 器 触发 执行 ) 之 后 ， 是 如 何 知道 IO 控制 器 
什么 时 候 可 以 再 次 接收 一 条 新 IO 请 求 的 呢 ? 如 果 所 
有 步骤 的 时 间 都 是 确定 的 、 固 定 的 ， 那 么 这 两 个 模 
块 可 以 完全 同步 地 按照 既定 步调 执行 ， 也 就 是 程序 
按照 固定 的 时 间 间 隔 向 IO 控制 器 发 送 IO 请 求 ， 但 
是 很 显然 这 不 现实 。 首 先 ， 硬 盘 的 响应 速度 是 不 确 
定 、 不 固定 的 ， 可 能 某 个 请 求 只 需 5 ms 就 执行 完毕 
(目标 区 域 离 磁头 位 置 较 近 ) ， 而 有 的 则 需要 20 ms 
左右 (目标 区 域 离 磁头 较 远 ) ; 其次， 程序 的 执行 
也 是 不 确定 、 不 固定 的 ， 可 能 CPU 此 时 正在 运行 其 
他 线程 ， 根 本 没有 轮 到 发 送 IO 的 这 个 线程 执行 。 那 
么 ， 对 于 流水 线 中 速率 不 匹配 的 步骤 ， 我 们 在 第 5 章 
也 介绍 过 ， 可 以 使 用 队列 来 充当 缓冲 。 试 想 一 下 ， 
指令 是 如 何 进入 CPU 流水 线 的 呢 ? 程序 可 执行 文件 
先 被 Loader 载 入 存储 器 ， 然 后 就 待 在 那 ， 等 待 CPU 的 
取 指 令 单 元 来 读 取 执 行 ， 内 存 中 的 程序 指令 天 然 形 
成 一 个 指令 队列 ， 所 以 CPU 内 部 的 流水 线 才 能 充分 
利用 起 来 。 

那么 ，LIO 命 令 及 配套 的 SGL， 是 否 也 可 以 预先 
被 程序 放置 到 SDRAM 存 储 器 中 ， 形 成 一 个 IO 请 求 
的 FIFO 队 列 ， 然 后 等 待 JO 控 制 器 不 断 来 取 IO 请 求 、 
执行 呢 ? 是 的 ， 这 样 最 合理 。 这 样 更 加 减轻 程序 一 
侧 的 负担 ， 程 序 只 需要 源源 不 断 将 LO 请 求 压 入 队列 
即 可 。 我 们 不 妨 将 该 队列 称 为 提交 队列 (Submission 
Queue, SQ) 。 慢 着 ， 那 么 完成 的 IO 怎么 追踪 呢 ? 
程序 必须 知道 哪个 IO 完成 了 ， 或 者 哪个 IO 出 现 了 
执行 错误 等 状态 ， 从 而 做 出 相应 动作 ， 比 如 清空 之 
前 分 配 的 各 种 资源 ， 或 者 重新 发 送 IO 。 需 要 再 设置 
一 个 队列 ， 专 门 用 于 盛 放 已 经 完成 的 IO 的 序号 ， 
或 者 说 Tag。IO 请 求 在 入 队 的 时 候 ， 需 要 被 编 上 一 
个 序号 /Tag， 这 样 我 们 就 可 以 知道 具体 是 哪个 IO 完 
成 ， 哪 个 IO 出 错 等 。 我 们 不 妨 将 该 队列 称 为 完成 队 
Я] (Completion Queue, CQ) 。 程 序 只 要 不 断 从 完 
成 队列 中 取出 消息 判断 每 个 IO 的 状态 即 可 。 这 种 场 
景 非常 适合 使 用 环形 队列 。 在 第 1 章 中 已 经 详细 介 
绍 过 环形 队列 ， 环 形 队列 又 被 称 为 Circular Queue, 


Ring Buffer, Ring Queue 等 。SQ 和 CQ 一 起 又 被 称 为 
(Queue Pair，QP) 。 

在 第 4 章 介 绍 流水 线 的 时 候 ， 是 我 们 第 一 次 应 用 
环形 队列 ， 将 其 作为 ReoB， 如 图 4-66 所 示 。 而 对 于 JI/ 
O 处 理 过 程 ， 只 需要 将 队列 中 的 每 项 记录 更 换 为 IO 
命令 、SGL、 其 他 控制 信息 即 可 ， 如 图 7-5 所 示 。 将 
队列 中 的 每 个 项 目 称 为 JO Descriptor (IO 请 求 描述 
符 ) ， 又 有 人 称 之 为 Work Element， 我 们 大 可 不 必 拘 
泥 于 这 些 名 词 。 从 这 个 角度 而 言 ，SQ 和 CQ 又 被 统称 
为 Descriptor Queue， 或 者 Work Element Queue。 
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图 7-5 ”环形 FIFO 队 列 示意 图 


对 于 FIFO 环 形 队 列 ， 写 入 者 或 者 说 生产 者 一 侧 ， 
需要 对 写 指针 进行 更 新 ， 读 出 者 或 者 说 消费 者 一 侧 ， 
需要 对 读 指针 进行 更 新 。 生 产 者 需要 了 解读 指针 的 位 
置 ， 以 免 生成 超 量 的 请 求 覆 盖 掉 尚未 处 理 的 请 求 ， 同 
样 ， 消 费 者 也 要 了 解 写 指针 的 位 置 ， 以 防 超越 了 写 指 
针 的 位 置 读 出 了 无 效 数据 。 

就 IO 场景 来 说 ， 对 于 SQ 而 言 ， 程 序 一 侧 是 生产 
者 ， 其 需要 不 断 更 新 SQ 的 写 指针 ， 但 是 在 更 新 写 指针 
之 前 需要 检查 SQ 的 读 指针 ，IO 控 制 器 一 侧 则 是 消费 
者 ， 其 不 断 地 更 新 读 指针 ， 但 是 在 读 取 数据 之 前 需要 
检查 SQ 的 写 指针 ， 对 于 CQ 而 言 ，UO 控 制 器 一 侧 是 生 
产 者 ， 程 序 一 侧 是 消费 者 。 那 么 这 两 对 儿 指 针 应 该 放 
置 在 哪里 昵 ?如果 生产 者 和 消费 者 都 是 纯 数字 电路 逻 
辑 而 不 是 靠 CPU 运 行 的 程序 的 话 ， 那 么 毫 无 疑问 这 4 
个 指针 都 放 在 FIFO 队 列 配套 的 寄存 器 中 ， 以 供 两 边 访 
问 。 但 是 现在 的 场景 是 一 个 程序 和 一 个 IO 控制 器 数 
字 逻 辑 电 路 来 通信 ， 我 们 依然 可 以 将 这 4 个 指针 放 到 
IO 控制 器 的 前 置 寄存 器 中 并 暴露 给 全 局 地 址 空间 。 
但 是 IO 控制 器 一 般 是 通过 I/O 桥 再 接 入 核 间 访 存 网 
络 的 ， 图 7-5 中 并 没有 给 出 VO 桥 这 个 角色 ， 但 是 实际 
上 ， 大 部 分 IO 控制 器 都 先 与 JO 桥 链接 ， 再 由 IO 桥 挂 
接 到 核 间 访 存 网 络 上 ， 如 图 7-6 所 示 。 


[7-6 LO 桥 示意 图 


而 VO 桥 本 身 的 运行 频率 相 比 核 间 访 存 网 络 的 频率 
要 低 ，1/O 控 制 器 的 运行 频率 通常 比 LO 自身 更 低 。 所 
以 ， 如 果 将 所 有 的 指针 都 放 到 IO 控制 器 的 寄存 器 中 ， 
程序 访问 它们 时 的 速度 将 比较 慢 。 更 合适 的 方法 是 ， 
将 程序 需要 随时 检测 的 指针 放 到 SDRAM 中 而 不 是 IO 
寄存 器 中 ， 将 IO 控制 器 需要 随时 检测 的 指针 放 到 IO 控 
制 器 自己 这 里 。 我 们 不 妨 给 读 写 指针 各 自 起 个 名 字 。 

我 们 将 写 指针 称 为 Producer Index (PI) ， 读 指针 
称 为 Consumer Index (CI) 。 那 么 ，SQ 的 PI 应 该 位 于 
IO 控制 器 的 寄存 器 上 ， 每 次 程序 下 发 一 个 IO， 就 更 
新 PI 的 值 (并 将 该 值 保存 在 主 存 中 一 份 备查 ) ， 这 样 
IO 控制 器 检测 PI 寄 存 器 就 知道 目前 的 任务 已 经 挤 压 到 
哪里 了 。SQ 的 CI 则 位 于 主 存 中 ，IO 控 制 器 每 取 走 一 
条 任务 ， 就 更 新 主 存 中 的 CI 值 。 程 序 一 侧 则 在 每 次 下 
发 IO 之 前 检测 CI 值 ， 看 看 其 是 否 与 上 一 次 的 PI 值 接近 
了 ， 如 果 值 接近 证 明 队 列 快 满 了 。 

对 于 CQ 来 说 ，PI 位 于 主 在 中 ，IO 控 制 器 每 完成 
一 笔 JO 操 作 ， 就 更 新 该 值 ，CI 则 位 于 IO 控制 器 的 CI 
寄存 器 上 ， 以 便 让 IO 控制 器 快速 查询 到 程序 一 侧 已 
经 消耗 到 哪里 了 、 是 不 是 快 压 满 了 。 

显然 ， IO 控制 器 也 必须 知道 SQ-CI 和 CQ-PI 所 在 
的 主 存 地 址 ， 才 能 访问 它们 。 所 
以 程序 必须 将 这 两 个 指针 的 指针 
写 入 到 IO 控制 器 相应 的 盛 放 这 两 
个 指针 的 寄存 器 中 。 此 外 ，I/O 控 
制 器 还 需要 知道 : 队列 的 项 目 数 
量 /队列 深度 、 每 个 项 目的 大 小 、 
队列 第 一 个 项 目 所 在 的 主 存 基地 
址 (队列 自身 的 位 置 指针 )， 程 
序 在 发 起 VO 之 前 ， 需 要 预先 将 这 
些 信息 写 入 到 1/O 控 制 器 对 应 的 寄 
存 器 中 ， 这 个 过 程 是 对 IO 控制 器 
进行 初始 化 的 其 中 一 步 。 我 们 在 
第 5 章 中 也 提 到 过 ， 这 些 针 对 底层 
设备 的 操作 和 控制 ， 不 需要 用 户 
程序 来 操心 ， 而 可 以 交 由 专门 的 
程序 ， 也 就 是 由 对 应 IO 控制 器 的 


SQ: Send Queue 
CQ: Completion Queue 
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驱动 程序 来 操心 。 上 述 初 始 化 过 程 ， 也 是 由 驱动 程序 
去 完成 的 ， 而 用 户 程序 只 需要 调用 驱动 程序 提供 的 接 
口 函数 ， 将 要 发 送 的 IO 信息 告诉 驱动 ， 剩 下 的 由 驱 
动 来 完成 。 后 文中 我 们 再 详细 介绍 。 

如 图 7-7 所 示 是 为 了 支持 环形 队列 方式 IO 而 增加 
的 各 个 寄存 器 ， 以 及 位 于 主 存 中 的 SQ、CQ、SQ-CI 
和 CQ-PI 等 数据 结构 。I/O 控 制 器 内 部 不 但 需要 保存 
SQ-CI 和 CQ-PI 的 指针 ， 而 且 还 需要 保存 上 一 个 SQ-CI 
和 CQ-PI 的 值 。 因 为 IO 控制 器 下 一 次 从 主 存 中 的 SQ 
HUO Descriptor 时 ， 只 需要 在 当前 保存 的 SQ-CI 的 值 
之 上 ， 加 一 下 Item Size 寄 存 器 中 的 值 ， 就 可 以 得 出 
队列 中 下 一 个 IO Descriptor 的 地 址 指针 ， 然 后 拿 着 这 
个 指针 访 存 ， 取 回 IO Descriptor， 最 后 更 新 主 存 中 的 
SQ-CI 变 量 ( 该 变量 位 于 SQ-CI PT 寄存 器 中 的 值 所 指 
向 的 主 存 地 址 ) 以 及 IO 控制 器 中 的 SQ-CI 寄 存 器 值 。 
在 这 里 一 定 不 要 将 “指针 ”和 “ 值 ” 搞 混 。 

当下 发 一 个 IO 时 ， 程 序 将 对 应 的 IO 命令 、SGL 
和 其 他 一 些 控制 信息 《比如 IO 的 序号 、 方 式 等 ) ， 
写 入 到 SQ 队 列 中 的 首部 位 置 ， 然 后 更 新 SQ 的 PI《〈 向 
IO 控制 器 上 的 SQ-PI 寄 存 器 写 入 队 首 的 位 置 ) ， 这 就 
成 功 下 发 了 一 个 IO 请 求 。IO 控 制 器 中 的 硬件 电路 需 
要 感知 到 SQ-PI 寄 存 器 的 值 发 生 了 变化 〈 比 如 利用 比 
较 器 与 上 一 次 的 值 进行 比较 ) ， 一 旦 值 有 变化 ， 则 I/ 
O 控 制 器 内 部 相应 电路 逻辑 会 被 处 罚 从 而 操纵 DMA 
引擎 到 SQ-PI 指 向 的 地 址 取 回 W/O Descriptor Jt i EX} 
应 的 状态 机 控制 器 信号 ， 解 析 并 执行 命令 。 当 I/O 
完成 后 ，I/O 控 制 器 将 完成 状态 等 信息 分 装 成 一 个 
Descriptor/Element， 写 入 主 存 中 的 CQ， 并 更 新 CQ- 
PI， 之 后 ， 发 出 中 断 信 号 给 CPU，CPU 跳 转 到 1/O 处 理 
程序 执行 进行 收尾 工作 。 

为 了 进一步 提升 性 能 ， 可 以 在 IO 控制 器 内 部 增 
设 一 个 FIFO 队 列 ， 其 专门 用 于 缓冲 从 主 存 中 取 回 的 I/ 
O Descriptor， 如 图 7-8 所 示 。 综 上 所 述 ， 在 整个 IO 路 
径 中 增加 队列 ， 可 以 极 大 提升 WO 性 能 。 


PT: Pointer 
QD: Queue Depth 


图 7-7 将 环形 队列 用 于 IO 处 理 过 程 


CI: Consumer Index 
РЇ: Producer Index 


有 大话 计算 机 一 一 计算 机 系统 底层 架构 原理 极限 剖析 


图 7-8 Descriptor Queue 


通常 ， 程 序 一 侧 会 设置 一 对 特殊 的 队列 ， 叫 作 
Admin Queue。 程 序 有 时 候 会 向 IO 控制 器 发 出 一 些 特 
殊 的 消息 ， 比 如 探测 一 下 设备 的 内 部 状态 ， 让 设备 切 
换 到 省 电 模式 ， 等 等 。 这 些 消息 比较 重要 ， 有 些 需要 
及 时 处 理 ， 如 果 将 它们 与 常规 的 数据 类 请 求 混杂 到 同 
一 个 队列 中 下 发 给 lO 控制 器 ， 这 可 能 会 导致 信息 无 
法 及 时 处 理 。 所 以 我 们 采用 单独 的 Admin Queue 来 给 
这 些 消息 提供 一 个 快速 VIP 通 道 。 程 序 在 初始 化 时 ， 
将 Admin Queue 的 位 置 指针 写 入 到 IO 控制 器 内 部 相应 
寄存 器 ， 即 可 让 后 者 知晓 该 队列 的 位 置 ， 从 而 用 与 常 
规 队列 相同 的 方式 下 发 管理 类 命令 。 


使 用 队列 之 后 ， 程 序 一 侧 只 需要 预先 配置 好 对 
应 的 寄存 器 ， 后 续 下 发 1O 时 变 得 非常 简单 ， 程 序 根 
本 不 用 亲 力 亲 为 地 控制 IO 控 制 器 做 每 一 步 动作 。 这 
就 相当 于 我 们 把 手动 挡 变 成 了 自动 挡 ， 踩 油门 车 跑 ， 
踩 刹 车 车 停 ， 而 不 需要 关心 换 挡 和 离合 器 等 这 些 内 
部 部 件 及 其 操作 。 付 出 的 代价 则 是 IO 控制 器 内 部 的 
电路 状态 机 越发 复杂 ， 一 旦 IO 方式 有 变化 ， 或 者 做 
了 一 些 优化 ， 那 么 就 必须 改动 O 控 制 器 的 电路 以 适 
配 这 种 优化 。 比 如 ，LIO 控 制 器 一 开始 不 采用 队列 方 
式 ， 后 来 采用 队列 方式 ， 再 后 来 采用 多 个 并 行 队列 的 
方式 ， 等 等 。 如 果 每 次 优化 都 要 重新 做 IO 控制 器 电 
路 ， 这 样 很 不 灵活 ， 成 本 也 太 过 高 昂 。 

从 一 开始 的 程序 负责 大 多 数控 制 、 程 序 轮 询 
(Poll) 状态 寄存 器 ， 到 后 来 的 DMA 模 式 、SGL、 
环形 队列 的 引入 ， 程 序 在 不 断 减负 ， 程 序 甚至 根本 
不 用 关心 IO 控制 器 目前 所 处 的 状态 。 正 常 IO 过 程 
根本 无 须 去 读 取 其 状态 寄存 器 ， 只 需要 不 断 处 理 CQ 
中 的 条 目 即 可 。 由 于 IO 控制 器 的 逻辑 越 来 越 复杂 、 
多 变 ， 所 以 人 们 自然 想到 ， 能 和 否 将 IO 控制 器 变 为 可 
编程 的 ， 也 就 是 在 LO 控制 器 中 内 嵌 CPU+ 程 序 代码 
来 处 理 I/O 请 求 ， 而 不 是 靠 一 开始 就 设计 好 而 不 能 改 
变 的 硬件 电路 模块 来 执行 IO 请 求 呢 ? 于 是 ， 固 件 


(Firmware) 应 此 而 生 。 


7.1.6 固件 /Firmware 


为 了 可 编程 ， 我 们 将 之 前 的 “IO 控制 器 总 控 模 
块 ” 电 路 ， 替 换 成 一 个 低 端 的 CPU， 辅 之 以 SDRAM 
存储 器 与 一 片 ROM， 在 ROM 中 放置 好 提前 编写 好 的 
IO 处 理 代 码 ， 加 电 之 后 ，CPU 将 ROM 中 的 代码 装载 


到 RAM 中 运行 ， 如 图 7-9 所 示 。 


ВАМ Е 


UO... 


$0- = 
SQ-QD cQ-QD Se 


图 7-9 可 编程 JO 控 制 器 示意 图 


IO 控制 器 内 部 的 所 有 寄存 器 ， 均 被 编 址 在 该 低 
端 CPU 的 全 局 地 址 空间 中 。 也 就 是 说 ， 诸 如 SQ-PI 这 
种 寄存 器 ， 可 以 被 运行 用 户 程序 的 CPU 访问 ， 同 时 也 
可 以 被 IO 控制 器 内 部 的 CPU 访问 ， 是 一 个 双 端 口 寄存 
器 。 一 些 内 部 私有 寄存 器 比如 SQ-CI， 则 只 需要 被 内 
部 CPU 访问 。 

此 时 ，IO 控 制 器 自身 变 成 了 一 部 小 电脑 。 那 么 
ROM 中 的 代码 又 是 如 何 完成 之 前 总 控 模 块 电路 该 完 
成 的 事情 的 呢 ? 试想 一 下 ，IO 控 制 器 总 控 模 块 的 任 
务 ， 无 非 就 是 读 取 对 应 寄存 器 、 判 断 、 执 行 、 写 入 对 
应 寄存 器 / 主 存 地 址 ， 这 么 几 大 步骤 。 这 几 个 步骤 用 
CPU+ 代 码 一 样 可 以 完成 ， 任 何 数字 逻辑 电路 都 可 以 
用 CPU+ 代 码 来 完成 。 在 第 5 章 中 其 实 我 们 就 举 过 例 
子 ， 用 程序 来 实现 一 个 电子 表 ， 和 直接 用 逻辑 电路 实 
现 电 子 表 ， 殊 途 同 归 。 

由 于 目前 系统 中 存在 两 个 电脑 ， 所 以 有 必要 加 
以 概念 区 分 。 对 于 运行 用 户 程序 的 CPU， 我 们 称 之 为 
Hosti 〈 主 机 端 ) ， 对 于 IO 控制 器 ， 我 们 称 之 为 外 部 
设备 端 /外 设 /设备 端 。 

当 Host 端 程序 下 发 JO 时 ， 会 更 新 设备 端的 SQ-PI 
寄存 器 值 。 设 备 端的 程序 可 以 不 停 轮 询 (Poll) 该 寄 
存 器 以 判断 是 否 有 变化 ， 或 者 将 电路 设计 为 只 要 该 寄 
存 器 的 值 发 生 了 变化 (利用 比较 器 来 判断 〉 就 触发 
一 个 中 断 信号 给 设备 端 CPU (注意 ， 不 是 中 断 Host 端 
CPU， 而 是 设备 端 CPU) 。 后 者 跳 转 到 IO 处 理 程序 进 
行 处 理 ， 也 就 是 读 入 SQ-PI 的 值 并 用 该 值 从 主 存 中 读 
回 IO Descriptor， 然 后 判断 其 中 的 指令 部 分 ， 向 后 端 


硬盘 发 起 命令 ， 同 时 从 主 存 中 取 回 SGL 中 所 描述 的 数 
据 碎 片 到 内 部 SRAM 缓 冲 区 ， 将 数据 写 入 硬盘 。 这 一 
切 ， 都 可 以 靠 设备 端 内 部 的 程序 代码 来 驱动 ， 程 序 代 
码 无 非 也 是 驱动 着 CPU 做 计算 和 访 存 两 大 任务 ， 这 与 
纯 硬件 数字 逻辑 本 质 上 相同 。 

当 I/O 流 程 由 于 各 种 原因 【〈 比 如 优化 ) RETE 
化 时 ， 只 要 简单 地 将 ROM 中 存储 的 程序 代码 替换 为 
新 编写 的 代码 即 可 ， 不 需要 重新 制作 一 版 芯片 。 人 
们 将 这 种 运行 在 外 部 设备 控制 器 内 部 的 程序 代码 称 
为 固件 (Firmware) 。 有 些 人 又 称 之 为 “ 韧 体 ”。 所 
谓 “ 韧 ”， 有 种 不 软 不 硬 的 意思 。 因 为 传统 意义 上 
的 “软件 ”应 该 是 运行 在 Host 端 CPU 上 的 ， 外 部 设备 
“就 应 该 是 ” 纯 数字 逻辑 才 对 。 一 开始 的 确 如 此 ， 后 
来 由 于 CPU 成 本 降低 ，CPU 得 到 了 广泛 使 用 ， 外 部 设 
备 也 可 以 使 用 CPU 运 行 自身 的 处 理 逻 辑 ， 所 以 硬 中 带 
ЖК, ТЇН. 
提示 > 

从 本 质 上 讲 ， 外 部 设备 与 Host 端 ， 是 两 台 完全 
独立 的 电脑 ， 它 俩 之 间 通 过 I/O 桥 、 访 存 网 络 进行 通 
人 入， 通信 的 方式 是 直接 地 址 访问 的 方式 ， 通 过 寄存 
器 来 传递 命令 和 控制 信号 、 通 过 主 存 来 传递 数据 。 
这 个 模式 的 本 质 是 两 台 计 算 机 的 网 络 通信 过 程 。 广 
义 上 讲 ，MC 内 存 控制 器 其 实 也 是 一 台 小 电脑 ， 同 
时 也 可 以 算 作 一 个 IO 设备 ， 其 接收 的 是 存储 器 地 
址 读 写 指令 ， 只 不 过 CPU 核心 亲手 把 数据 送 给 它 ， 
ЖАПО РОМА REAR, МС 
CPU 核心 之 间 通 过 访 存 网 络 互相 连接 。 再 深入 理解 
的 话 ，CPU 核 心 内 部 各 个 模块 之 间 ， 其 实 也 是 各 自 
独立 的 “计算 ”单元 。 比 如 译 码 器 负责 译 码 机 器 指 
令 ， 译 码 的 过 程 本 身 就 是 一 种 计算 ,而且 是 逻辑 运 
H; 而 ALU 将 数据 进行 算术 运算 ( 也 可 以 逻辑 运 
算 ) ;保留 站 、 分 支 预测 等 流水 线 优 化 单元 ， 进 行 
的 也 主要 是 逻辑 运算 (也 有 算术 运算 ) 。 这 些 独 立 
的 “小 电脑 ”之 间 通 过 内 部 寄存 器 直 连 方式 连接 ， 
运行 在 同一 个 时 钟 域 ， 只 不 过 CPU 核心 内 部 的 这 多 
台 小 电脑 合力 共同 完成 单条 机 器 指令 的 执行 。 而 
CPU 核心 与 IO 控制 器 这 两 台电 脑 合力 完成 单条 LO 
命令 的 执行 ， 而 为 了 完成 一 条 IO 命令 ，CPU 核 心 一 
侧 可 能 需要 执行 大 量 的 (上 百 万 条 ) 机 器 指令 (Ж 
备 缓冲 区 、 复 制 数据 、 读 写 IO 寄存 器 、 处 理 IO 完 
成 消息 等 步骤 ) 。 所 以 ， 计 算 机 内 部 各 个 部 件 都 拥 
有 相同 的 最 终 本 质 : 接收 数据 、 处 理 数 据 、 输 出 
数据 。 


7.1.6.1 ”固件 与 OS 的 区 别 与 联系 


如 果 负 责 某 种 过 程 〈 比 如 IO 过 程 ) 控制 逻辑 的 
程序 复杂 度 较 低 的 话 ， 可 以 在 没有 底层 系统 软件 提 
供 支撑 的 情况 下 直接 将 其 放置 到 CPU 上 运行 (俗称 裸 
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奔 / 裸 跑 ) 。 其 实 ， 控 制 逻辑 本 身 就 已 经 算是 底层 软件 
了 。 或 者 ， 如 果 人 逻辑 比较 复杂 ， 其 至 需要 多 线程 运行 
的 话 ， 那 么 可 以 将 控制 逻辑 代码 运行 在 用 户 态 ， 依 靠 
底层 软件 提供 一 些 支撑 ， 那 这 就 成 了 OS+ 应 用 程序 的 
常规 方式 。 

那么 固件 到 底 是 不 是 一 种 OS 呢 ? 它 可 以 是 ， 也 可 
以 不 是 。 没 人 规定 CPU 一 定 要 运行 OS， 运 行 的 完全 可 
以 是 一 段 简单 或 者 复杂 的 代码 ， 可 以 直接 在 实 模式 单 
任务 运行 ， 甚 至 可 以 直接 不 使 用 时 钟 中 断 ， 以 获取 最 
高 效 的 运行 效率 。 
7.1.6.2 固件 的 层次 


一 个 芯片 内 有 多 个 子 部 件 ， 每 个 部 件 可 能 都 是 由 
CPU+ 风 辑 电路 + 代码 组 合 起 来 的 ， 可 能 都 需要 各 自 的 
固件 ， 而 所 有 这 些 子 部 件 的 全 局 协调 控制 又 需要 一 个 
总 控 固 件 。 所 以 固件 基本 是 分 两 层 的 。 一 层 是 总 控 
件 ， 其 多 数 为 实时 操作 系统 ， 比 如 VxWorks/ThreadX 
以 及 之 上 运行 的 控制 程序 〈 一 般 为 多 线程 的 ) ， 这 些 
实时 操作 系统 提供 多 线程 管理 、 内 存 管 理 等 基本 的 底 
层 系 统 级 程序 。 这 也 是 ThreadX 名 称 的 由 来 ， 其 本 质 
上 可 以 近似 看 作 是 一 个 线程 管理 器 。 

另 一 层 是 各 个 子 部 件 的 固件 ， 由 于 逻辑 更 加 简 
单 高 效 ， 其 基本 都 为 代码 裸 跑 形态 ， 不 需要 OS 程序 
支撑 。 下 文中 会 介绍 一 款 实际 的 IO 控制 器 ， 届 时 大 
家 会 对 整个 控制 器 内 部 的 构造 和 流程 有 更 深 一 步 的 认 
识 ， 会 深刻 体会 到 各 个 子 部 件 中 的 CPU 和 程序 代码 的 
角色 和 作用 。IO 控 制 器 本 质 上 是 一 台 看 似 独立 的 计 
算 机 ， 内 部 又 是 由 多 台独 立 小 计算 机 网 络 通信 相互 
协作 。 


7.1.6.3 固件 的 格式 


固件 作为 程序 ， 当 然 为 二 进 制 机 器 码 的 格式 了 。 
但 是 如 果 从 源 代码 角度 来 描述 的 话 ， 代 码 最 前 面 一 部 
分 是 一 个 Loader 程 序 ， 用 汇编 程序 编写 ， 负 责 将 固件 
主 程序 装载 到 SDRAM 并 跳 转 到 主 程序 执行 。 主 程序 
代码 的 第 一 部 分 是 硬件 初始 化 代码 ， 直 接 用 汇编 语言 
编写 ; 第 二 部 分 是 准备 运行 环境 、 堆 和 栈 、 中 断 向 量 
表 等 ， 第 三 部 分 是 业务 逻辑 的 main 函 数 。 整 个 代码 被 
编译 成 二 进 制 image。 有 些 固件 主 程序 被 封装 成 elf 或 
者 exe 格 式 ， 以 供 Loader 程 序 对 其 进行 基地 址 重 定 向 等 
操作 。 


7.1.6.4 固件 存在 哪 


国 件 一 般 都 存储 在 Flash 闪 存 或 者 ROM 中 ， 一 款 
芯片 可 以 集成 数 MB 的 Flash/ROM， 也 可 以 使 用 外 部 
Flash 来 存储 固件 。 而 且 一 般 在 Flash 中 会 保存 多 个 版 
本 的 固件 的 多 个 备份 。 固 件 的 Flash 存 储 空间 被 至 少 
分 为 两 份 ， 第 一 份 为 当前 活动 固件 ， 第 二 份 为 备份 固 
件 。 升 级 其 实 升 的 就 是 备份 固件 ， 将 新 版 本 固件 通过 
特定 协议 传输 并 覆盖 写 入 到 该 备份 固件 存储 空间 ， 并 
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标记 该 最 新 固件 为 活动 固件 ， 在 将 芯片 重启 之 后 ， 便 
会 从 活动 固件 启动 了 。 如 果 芯 片 尝试 从 当前 固件 无 法 
启动 ， 则 会 自动 尝试 从 旧版 本 固件 启动 。 


7.1.6.5 固件 如 何 加 载运 行 


LO 控制 器 芯片 启动 时 ， 主 控 CPU 开 始 运行 ， 其 
他 子 部 件 上 的 通用 CPU 被 持续 发 送 reset 信 号 ， 从 而 不 
能 执行 任何 代码 。 主 控 CPU 会 从 Flash 中 读 入 POST 代 
码 来 检测 各 硬件 器 件 的 存在 并 对 其 测试 及 设置 (向 对 
应 的 寄存 器 地 址 读 写 数据 ) ， 最 后 执行 Boot Loader 代 
码 ，Boot Loader 负 责 将 主 控 CPU 以 及 其 他 各 通用 CPU 
的 固件 载 入 到 各 自 的 内 存 空间 ， 最 后 跳 转 到 主 固 件 的 
入 口 处 执行 。 随 着 主 固 件 的 执行 ， 主 控 CPU 最 终 会 按 
照 顺序 释放 其 他 子 器 件 中 通用 CPU 的 reset 信 号 ， 从 而 
让 这 些 CPU 执 行 它们 各 自 的 固件 ， 完 成 整个 芯片 的 启 
动 ， 进 入 等 待 O 状 态 。 


7.1.7 ”网络 /O 基 本 套路 


对 于 网 络 IO 控 制 器 而 言 ， 其 硬件 架构 与 存储 IO 
控制 器 基本 架构 是 类 似 的 ， 最 大 的 不 同 就 是 后 端 接口 
控制 器 从 SCSLSAS/SATA/FC 通 道 控制 器 改 为 以 太 网 
通道 控制 器 ， 而 前 端 部 分 基本 一 致 。 然 而 ， 在 软件 
架构 上 和 访问 流程 上 ， 网 络 IO 与 存储 IO 有 一 些 较 大 
区 别 。 

访问 网 络 的 过 程 与 访问 硬盘 又 有 所 不 同 。 对 硬盘 
的 读 和 写 ， 都 是 由 程序 主动 发 起 的 ， 硬 盘 永 远 不 会 擅 
自 向 Host 端 返回 什么 数据 。 对 于 网 络 ， 什 么 时 候 发 送 
数据 、 发 送 什么 数据 ， 当 然 是 Host 端 程序 说 了 算 ， 这 
与 存储 IO 无 异 。 但 是 接收 数据 的 过 程 可 就 由 不 得 程 
序 控制 了 ， 网 络 上 的 其 他 计算 机 任何 时 候 都 可 以 主动 
向 你 发 送 任何 数据 。 网 络 控制 器 一 旦 接收 到 数据 包 ， 
先 将 其 缓存 在 自己 内 部 缓冲 区 ， 然 后 必须 尽 可 能 快 地 
写 入 主 存 ， 和 否则 内 部 缓冲 区 满 了 之 后 ， 就 无 法 再 接收 
数据 包 了 ， 这 就 会 导致 丢 包 。 那 么 ， 数 据 写 到 主 存 哪 
里 ? 总 不 能 乱 放 一 气 盖 掉 其 他 数据 吧 。 为 此 ，Host 端 
程序 必须 预先 在 主 存 中 开辟 一 块 缓冲 区 ， 并 将 缓冲 区 
基地 址 告诉 网 络 控制 器 ， 每 次 新 数据 收 到 后 就 往 这 里 
放 ，Host 程 序 从 这 里 取 走 。 显 然 ， 这 块 缓冲 空间 也 需 
要 被 循环 使 用 ， 本 质 上 也 应 该 是 个 大 的 环形 队列 。 

网 络 控制 器 每 次 向 主 存 中 写 入 、 从 主 存 中 读 出 的 
数据 单位 最 小 为 一 个 网 络 包 ， 如 果 是 以 太 网 控制 器 ， 
那么 每 个 数据 包 大 小 为 64 一 1522 字 节 (以 太 网 标准 
规定 常规 数据 包 尺寸 不 得 大 于 1522 字 节 ) 。 每 次 接收 
到 的 数据 包 大 小 是 不 可 预测 的 。 所 以 ， 普 遍 做 法 是 ， 
Host 端 程序 预先 向 内 存 管理 程序 申请 好 若干 个 大 小 为 
2KB 左 右 的 〈 必 须 大 于 最 大 数据 包 的 尺寸 ) 的 主 存 地 
址 段 碎片 (因为 这 些 区 段 在 物理 地 址 空间 可 能 并 不 连 
续 ) ， 每 个 碎片 可 以 容纳 一 个 数据 包 ， 所 以 其 被 称 为 
数据 包 缓冲 区 。 然 后 ，Host 端 程序 为 每 个 碎片 生成 对 


应 的 地 址 指针 ， 再 申请 一 定量 的 内 存 ， 将 这 些 指针 放 
置 到 这 块 内 存 中 ， 使 其 形成 一 个 FIFO 队 列 ， 再 生成 两 
个 变量 分 别 容纳 该 FIFO 的 读 和 写 指针 〔 队 尾 和 队 首 指 
针 ) 。 该 FIFO 队 列 被 称 为 网 络 1/O Descriptor Queue, 
Host 端 程序 只 要 将 该 FIFO 队 列 的 基地 址 告诉 网 络 
IO 控制 器 ， 那 么 后 者 便 知 道 了 “ 主 存 中 哪些 区 域 是 
可 以 让 我 写 入 数据 包 的 ”。 网 络 IO 控制 器 接收 到 第 
一 个 数据 包 ， 就 写 入 队列 中 的 第 一 个 指针 〈 也 就 是 队 
列 基地 址 所 指向 的 那个 条 目 ) 指向 的 缓冲 区 ， 并 更 新 
队 首 指针 〈 将 其 +1 行 ) ， 然 后 发 出 中 断 信号 ， 让 Host 
端 程序 来 处 理 接收 到 的 数据 包 。Host 端 程序 根据 队 尾 
指针 ， 将 队列 尾部 的 数据 包 从 缓冲 区 取 走 到 别处 ， 
并 将 队 尾 指针 也 +1 行 ， 然 后 分 析 数 据 包 中 的 内 容 以 
判断 数据 是 谁 发 来 的 ， 又 该 传送 给 哪个 Host 端 程序 来 


瘟 族 数据 包 的 区 段 可 以 不 连续 ， yp 
Queue 自 身 必 须 在 主 存 中 物理 上 连续 存放 ， 因 为 IO 
控制 器 写 入 一 个 数据 包 之 后 ， 只 需要 将 队 首 指针 +1 
行 就 可 以 得 出 下 一 个 Descriptor 的 地 址 。 


且慢 ， 既 然 每 个 数据 包 的 大 小 都 不 一 样 〈 但 是 都 
小 于 2KB) ， 那 么 Host 端 程序 又 怎么 知道 接收 到 的 数 
据 包 是 多 长 呢 ? 2KB 的 缓冲 区 容纳 的 有 效 数 据 长 度 必 
须 给 出 。 所 以 ， 当 网 络 IO 控 制 器 将 数据 包 写 入 缓冲 
区 时 ， 要 一 并 带 有 该 数据 包 的 长 度 值 。 除 了 长 度 值 之 
外 ， 其 实 还 有 其 他 一 些 属性 必须 通告 给 Host 端 程序 ， 
包括 数据 包 的 校 验 码 、 状 态 、 错 误 码 和 VLAN 标 识 。 
这 些 都 属于 该 数据 包 的 属性 ， 可 以 一 并 写 入 ?KB 缓冲 
区 内 ， 但 是 如 果 将 其 写 入 到 Descriptor Queue 中 对 应 的 
指针 旁边 ， 这 样 似乎 更 分 明 ， 数 据 区 就 存 数据 ， 元 数 
据 区 就 存 指针 和 属性 。 如 图 7-10 所 示 为 一 个 网 络 IO 
Descriptor 条 目 中 所 包含 的 内 容 。 


如 果 对 网 络 知识 不 是 很 了 解 的 话 ， 图 7-10 中 的 
很 多 名 词 可 能 会 暂时 让 你 感觉 困惑 。 没 有 关系 ， 我 
们 会 在 后 文中 介绍 一 些 计算 机 网 络 的 基本 知识 ， 届 
时 你 可 以 返回 来 重新 理解 。 另 外 值得 一 提 的 是 ， 不 
同 的 网 络 IO 控制 器 的 设计 不 同 ，Descriptor 中 包含 
的 内 容 也 可 能 不 尽 相 同 ， 本 例 只 是 给 出 众多 实现 方 
法 中 的 典型 的 一 种 。 


图 7-11 为 网 络 IO Descriptor Queue 示 意图 。 本 例 
中 ，Host 端 程序 开辟 了 一 个 指向 了 8 个 数据 包 缓冲 区 
的 队列 ， 每 个 缓冲 区 2KB 大 小 ， 每 个 Descriptor 大 小 
为 16 字 节 ， 志 号 Descriptor 作 为 队 首 及 整个 队列 自身 
的 基地 址 。 实 际 中 ，Host 端 程序 一 般 开 辟 128 一 256 个 
缓冲 区 。 网 络 LO 控制 器 上 需要 设置 对 应 的 寄存 器 来 
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16 字 节 的 缓冲 区 Descriptor 
数据 包 缓冲 区 基地 址 (64 bits) masm | BESLER | из шан | МАМЯЯ 
=== 
л = 
es — 
PIF | IPCS |TCPCS|uDPCS| VP |IXSM | ЕОР | DD | | RXE | IPE |ТСРЕ|'®чу°@['®*чу°4] SEQ | SE | СЕ 

DD = Descriptor Done (1=yes, 0=no) shows if finished with descriptor RXE = Received-data Error (1=уез, 0=no) 

EOP = End Of Packet (1=yes, 0=no) shows if this packet is logically last IPE = IPv4-checksum error 

1Х5М = Ignore Checksum Indications (1=yes, 0=no) ТСРЕ = TCP/UDP checksum error (1=yes, 0=no) 

VP = МАМ Packet match (1=yes, О=по) SEQ = Sequence error (1=yes, 0=no) 

USPCS = UDP Checksum calculated in packet (1=yes, 0=no) SE = Symbol Error (1=yes, 0=no) 

TCPCS = TCP Checksum calculated in packet (1=yes, 0=no) CE = CRC Error or alignment error (1=yes, О=по) 

IPCS = IPv4 Checksum calculated on packet (1=yes, 0=no) 

PIF = Passed In exact Filter (1=yes, 0=no) shows if software must check 
图 7-10 10 Descriptor 条 目 中 的 内 容 一 览 

16 字 节 的 缓冲 区 Descriptor 
< + 
数据 包 缓冲 区 基地 址 (64 bits) 数据 包 长 度 | 数据 包 校 验 码 | 状态 错误 码 | VLAN 标 识 
O 年 ”数据 包 组 冲 区 基地 址 指针 (64 bits) = = =|= = |7 
数据 包 缓冲 区 基地 址 指针 (64 bits) = = = | = 6 
数据 包 缓冲 区 基地 址 指针 (64 bits) = = = |= = 5 Descriptor 
数据 包 缓冲 区 基地 址 指针 (64 bits) = = = | = = 4 Queue 基 地 址 
e 数据 包 缓冲 区 基地 址 指针 (64 bits) = = = |= = 3 Descriptor 

[YTTUYTTYTTUWITTSEE3 = ||| = ]2 J ee 
数据 包 缓 冲 区 基地 址 指针 (64 bits) = = =|= = |1 的 队 首 / 队 尾 指针 
数据 包 缓 冲 区 基地 址 指针 (64 bits) 空 空 2j = = 0 


队 首 指针 


队 尾 指针 


2KB 回 定 大 小 的 数据 包 缓冲 区 
图 7-11 


存储 这 些 信 息 ， 包 括 队列 项 数 〈《 队 列 深度 ) 、 每 个 
Descriptor 的 大 小 、 队 列 基地 址 、 队 尾 指针 、 队 首 指 针 
的 指针 等 。 为 了 方便 制图 ， 环 形 队列 就 不 用 真 的 画 出 
个 环形 来 了 。 元 数据 区 初始 时 是 空 的 ， 因 为 此 时 尚未 
接收 到 任何 数据 包 。 

图 7-12 描 述 了 网 络 IO 控 制 器 接收 数据 包 并 写 入 主 
存 中 缓冲 区 的 过 程 。 网 络 IO 控 制 器 会 预先 将 接收 队 
列 中 的 Descriptor 从 队 首 开始 取 回 若干 条 放 入 自身 内 
部 的 缓冲 队列 中 。 当 网 络 IO 控 制 器 接收 到 第 一 个 数 
据 包 之 后 ， 取 队 首 处 的 Descriptor， 根 据 其 中 的 缓冲 
区 基地 址 指针 ， 操 纵 DMA 引 擎 将 数据 包 的 内 容 传送 
到 对 应 缓冲 区 中 (图 7-12 中 左上 角 部 分 中 的 紫色 立方 
体 ) ， 然 后 将 该 数据 包 的 元 数据 写 回 到 接收 队列 中 的 
对 应 条 目的 对 应 位 置 〈 图 中 绿色 区 块 ) 。 然 后 ， 网 络 
IO 控制 器 发 出 中 断 信 号 ，Host 端 程序 对 该 数据 包 进 行 
后 续 处 理 ， 并 更 新 队 尾 指针 。 至 于 “后 续 处 理 ” 都 处 
理 什么 东西 ， 流 程 怎么 样 ， 我 们 会 在 后 文中 的 网 络 协 
议 栈 相关 章节 详细 介绍 。 

我 们 假设 Host 端 程序 还 没有 来 得 及 处 理 接收 到 的 


共 16KB 的 数据 包 缓冲 区 


网 络 1/O Descriptor Queue 示 意图 


数据 包 ， 结 果 网 络 控制 器 又 接收 到 了 多 个 数据 包 。 如 
图 7-12 中 右上 角 、 左 下 角 、 右 下 角 所 示 。 此 时 接收 队 
列 一 共 积压 了 4 个 数据 包 。 

网 络 控制 器 又 接收 到 一 个 新 数据 包 ， 元 数据 和 
指针 位 于 #6 位 置 ， 如 图 7-13 左 上 角 所 示 。 同 时 ，Host 
端 程序 处 理 了 位 于 过 位 置 上 的 数据 包 ，Host 端 程序 将 
数据 包 内 容 以 及 对 应 的 元 数据 复制 走 并 做 后 续 处 理 ， 
并 更 新 队 尾 指针 为 妆 。 雪 条目 将 来 会 被 重用 ， 其 中 的 
指针 并 无 变化 ， 依 然 指向 原来 的 那个 2KB 缓 冲 区 ， 被 
复制 的 数据 内 容 依 然 留 在 缓冲 区 以 及 元 数据 区 上 ， 但 
是 并 不 影响 后 续 使 用 ， 因 为 新 的 条 目 会 原 地 覆盖 这 
些 旧 内 容 。 如 图 7-13 右 上 角 所 示 ， 又 有 两 个 数据 包 被 
接收 ， 队 首 指针 变 为 0， 这 一 步 Host 端 程序 并 未 处 理 
任何 数据 包 。 如 图 7-13 左 下 角 所 示 ， 一 个 新 数据 包 又 
接收 到 ， 同 时 Host 端 程序 也 处 理 了 #3 号 数据 包 。 如 图 
7-13 右 下 角 所 示 ，Host 端 程序 处 理 了 #4 号 数据 包 ， 同 
时 又 接收 到 一 个 新 数据 包 。 

就 这 样 ，Host 端 程序 预先 初始 化 好 的 接收 队列 ， 
将 对 应 的 指针 信息 通告 给 网 络 I/O 控 制 器 ， 后 者 每 次 
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接收 到 新 数据 包 就 顺序 写 入 到 空闲 的 槽 位 上 ， 等 待 
Host 端 程序 处 理 。 接 收 Descriptor 队 列 其 在 形式 上 与 上 
文中 介绍 过 的 存储 IO Descriptor Queue 是 一 样 的 (每 
个 Descriptor 中 也 有 命令 、SGL 指 针 等 元 数据 ) ， 只 
不 过 存储 的 IO Descriptor Queue 中 的 空闲 项 是 完全 没 
有 用 处 的 ， 因 为 每 次 接收 、 发 送 ，Host 端 程序 都 会 临 
时 才 给 出 缓冲 区 指针 。 而 网 络 IO Descriptor Queue 中 
汐 空 闲 项 是 有 用 的 ， 其 内 部 的 指针 恒定 指向 对 应 的 组 
冲 区 ， 整 个 运行 过 程 中 这 些 缓冲 区 恒定 不 变 ， 被 轮流 
重用 。 

Ет» 


由 于 底层 内 存 管理 程序 是 有 可 能 把 内 存 中 的 数 
据 换 出 到 硬盘 中 的 ( 见 之 前 章节 介绍 ) ， 这 些 被 腾 
出 的 地 址 段 可 能 会 被 其 他 进程 的 数据 占用 。 这 个 换 
出 动作 是 无 法 被 感知 到 的 ， 如 果 I/O 控 制 器 继续 从 
这 些 物理 地 址 上 取 数 据 或 者 将 接收 到 的 数据 写 入 这 
里 ， 那 就 会 错乱 。 所 以 Host 端 的 程序 在 分 配 好 对 应 
的 队列 和 缓冲 区 之 后 ， 还 必须 通知 内 存 管理 程序 不 
要 对 这 些 地 址 进行 换 出 操作 ， 这 个 操作 被 俗称 为 
“Pin”， 也 就 是 钉 住 的 意思 。 


请 思考 一 个 问题 。 网 络 I/O 的 数据 包 通 常 比较 
小 ， 只 有 64 一 1522 字 节 ， 很 细碎 ， 不 像 存储 系统 的 
IO 那样 每 次 传送 的 内 容 大 概 在 几 十 上 百 KB 级 别 。 如 
果 每 收 到 一 个 数据 包 就 中 断 CPU， 那 就 太 不 划算 了 。 
为 了 降低 中 断 的 频 度 ， 网 络 LO 控制 器 可 以 被 设计 为 
积攒 一 定量 的 数据 包 之 后 ， 则 发 一 次 中 断 ，Host 端 程 
序 每 次 处 理 尽 可 能 多 的 数据 包 。 这 样 我 们 需要 对 网 络 
IO 控制 器 内 部 的 固件 做 一 定 的 修改 ， 增 加 对 应 的 计 
数 器 变量 ， 固 件 检查 该 计数 器 ， 当 数据 包 达 到 一 定 
数量 则 触发 中 断 。 那 么 ， 这 样 每 次 IO 都 会 多 检查 一 
步 ， 势 必 增 加 网 络 时 延 。 另 外 ， 积 攒 的 数据 包 得 不 到 
及 时 处 理 ， 也 会 增加 网 络 延迟 。 

这 样 设计 更 合理 : 网 络 IO 控 制 器 只 要 收 到 数据 
包 并 将 其 写 入 主 存 缓冲 区 ， 就 触发 中 断 ; 中 断 之 后 ， 
Host 端 程序 做 的 第 一 件 事情 则 是 把 MO 控制 器 的 中 断 
关 掉 〈 向 对 应 的 寄存 器 写 入 对 应 的 控制 字 ) ， 然 后 从 
队 尾 指针 位 置 开 始 不 断 处 理 数据 包 处 理 多 少数 据 包 
根据 Host 端 程序 自身 的 设计 考量 ， 可 以 一 股 脑 处 理 到 
队 首 ， 也 可 以 处 理 一 定时 间或 者 一 定 个 数 的 数据 包 ; 
之 后 ，Host 端 程序 再 打开 网 络 IO 控制 器 的 中 断 ， 继 
续 这 个 流程 。IO 控 制 器 被 关闭 中 断 期 间 ， 其 他 工作 
并 不 受 影响 ， 数 据 包 照 样 接收 、 写 入 主 存 ， 更 新 对 应 
指针 ， 只 不 过 不 再 发 中 断 而 已 。 当 网 络 流量 突然 到 
来 时 ， 第 一 个 数据 包 触 发 一 个 中 断 ，Host 端 程序 运行 
起 来 ， 临 时 关闭 中 断 ， 然 后 处 理 数据 包 。 这 期 间 ， 
又 会 有 后 续 的 数据 包 接连 到 来 ， 此 时 Host 端 程序 批量 
多 处 理 一 些 数据 包 之 后 ， 再 打开 中 断 ， 可 能 一 瞬间 又 
会 触发 中 断 ， 那 就 再 次 进入 这 个 流程 。 这 种 方法 ， 既 


不 耽误 对 每 个 数据 包 的 及 时 处 理 ， 又 能 降低 中 断 的 频 
度 〈 由 Host 端 程序 主动 关闭 中 断 再 打开 ) 。 对 于 高 速 
收发 数据 的 IO 控制 器 来 讲 ， 这 种 方式 最 为 高 效 ， 其 
又 被 称 为 中 断 + 轮 询 混 合 处 理 方式 。Host 端 程序 主动 
去 处 理 接收 队列 中 的 条 目 ， 这 种 方式 就 属于 轮 询 ; 
被 中 断 触发 时 才 去 处 理 的 方式 ， 就 叫 作 受 中 断 驱 动 
(Tnterrupt Driven) 。 

向 网 络 IO 控 制 器 发 送 数据 包 的 过 程 ， 依 然 利 用 
与 接收 Descriptor Queue 类 似 的 发 送 Descriptor Queue, 
只 不 过 每 个 Descriptor 中 的 缓冲 区 基地 址 指针 可 能 随时 
变化 ， 因 为 要 发 送 的 数据 的 位 置 每 次 都 可 能 不 固定 。 
当然 ， 也 可 以 像 接收 队列 一 样 ，Host 端 程序 预先 申请 
固定 大 小 、 固 定位 置 的 缓冲 区 ， 每 次 发 送 数据 包 之 
前 ， 将 要 发 送 的 数据 包 复 制 到 缓冲 区 中 。 实 际 产品 的 
实现 方式 多 种 多 样 ， 不 一 而 同 。 

至 此 我 们 对 IO 操作 有 了 一 个 基本 认识 。 不 仅仅 
对 存储 和 网 络 ， 对 其 他 方式 的 VO 操作 ， 整 个 处 理 过 
程 的 套路 都 是 类 似 的 。 


7.1.8 ” 接 入 更 多 外 部 设备 


对 于 一 台 计 算 机 来 讲 ， 它 会 有 很 多 IO 设备 ， 如 
网 络 控制 器 、 存 储 控制 器 、 声 音 和 显示 控制 器 。 高 端 
一 些 的 计算 机 ， 可 能 还 需要 多 个 网 络 控 制 器 。 如 果 将 
所 有 的 IO 控制 器 全 都 接 入 核 间 访 存 网 络 上 ， 理 论 上 
这 样 做 可 以 ， 但 是 会 拖 慢 访 存 网 络 ， 因 为 这 样 接 入 
了 太 多 节点 ， 为 了 接 入 IO 控制 器 而 拖 慢 了 核心 对 
存储 器 的 访问 。 不 妥 不 妥 。 因 此 ， 要 想 办 法 把 所 有 
的 IO 控制 器 全 部 从 核 间 访 存 网 络 ， 甚 至 片 间 访 存 网 
络 上 移出 去 ， 在 核 间 或 者 片 间 访 存 网 络 上 设置 一 个 代 
理 模 块 ， 并 设置 好 路 由 ， 将 所 有 的 IO 请 求全 部 发 送 
给 该 代理 ， 然 后 由 其 转发 给 后 面 的 IO 控制 器 。 这 个 
代理 便 是 IO 桥 芯片 。 

这 样 做 的 确 解决 了 访 存 网 络 过 于 腔 肿 的 问题 。 
但 是 ， 由 于 不 同 的 场景 对 计算 机 配置 规格 的 要 求 也 不 
同 ， 有 些 根本 不 需要 网 络 、 声 音 ， 其 至 图 像 显 示 都 不 
需要 ， 有 些 则 需要 大 量 的 网 络 接口 、 存 储 接口 。1/O 
桥 芯 片 本 身 是 固定 配置 的 ， 自 身 无 法 容纳 太 多 1/O 控 
制 器 ， 如 果 IO 桥 能 一 下 子 提供 10 个 网 络 控制 器 、10 
个 存储 IO 控制 器 ， 满 足 所 有 场景 ， 这 倒 也 痛快 。 但 
是 不 会 有 人 这 样 做 ， 成 本 太 高 。 为 了 实现 更 加 灵活 的 
IO 接口 扩展 性 ， 需 要 另 想 办 法 。 

可 以 确定 的 是 必须 采用 复 用 技术 ， 让 多 个 IO 控 
制 器 可 以 共享 同一 个 IO 总 控制 通路 与 核心 及 主 存 之 
间 互 传 数据 ， 或 者 这 样 ，IO 桥 上 只 需要 保留 这 个 总 
控 通 路 控制 器 即 可 。 所 有 其 他 IO 控制 器 ， 不 管 数量 
如 何 、 种 类 如 何 ， 都 与 该 单个 通路 控制 器 通信 ， 后 
者 再 将 IO 控制 器 的 数据 传送 到 片 间 、 核 间 访 存 网 络 
上 ， 与 MC 和 CPU 核心 交互 。IUO 桥 上 只 保留 那些 最 为 
常用 的 IO 控制 器 ， 比 如 SATA IO 控制 器 、 声 音 和 显 


示 I/O 控 制 器 等 。 至 于 那些 不 太 常 用 的 ， 比 如 摄像 头 
IO 控制 器 、10GB 以 太 网 控制 器 、SAS 控 制 器 、 高 端 
显示 控制 器 等 ， 就 不 集成 到 IO 桥 内 部 了 ， 和 否则 成 本 
太 高 。 如 果 想 用 上 面 这 些 设备 ， 可 将 它们 统一 接 入 到 
LO 总 控制 器 上 。 那 么 ，L/O 控 制 器 又 是 怎么 与 1O 总 控 
制 器 连接 起 来 的 呢 ? 

IO 总 控制 器 通过 单独 的 总 线 或 者 某 种 形式 的 网 
络 与 后 面 这 些 I/O 控 制 器 连接 起 来 ， 如 图 7-14 所 示 。 
这 些 连接 IO 总 控制 器 与 IO 控制 器 的 总 线 /网 络 有 多 
种 ， 比 如 PCI、PCI-X、PCI-E， 以 及 ARM CPU 平台 常 
用 的 AXI 等 。 其 中 ，PCI、PCI-X 属 于 共享 总 线 类 型 ， 
PCI-E 属 于 交换 网 络 类 型 。 

要 做 到 外 部 设备 的 灵活 增添 ， 一 个 合理 的 办 法 
就 是 将 IO 控制 器 做 成 可 插 拔 的 单独 的 硬件 单 板 ， K 
用 物理 连接 器 《〈 比 如 插 模 形式 ) 与 IJO 桥 输出 的 连接 
器 进行 对 接 。IO 总 控制 器 预 留 一 定数 量 的 插 槽 ， 就 
可 以 让 用 户 灵活 添置 各 种 IO 控制 器 单 板 。 图 7-14 右 
上 和 角 所 示 为 一 片 SAS IO 控制 卡 ， 其 采用 PCIE 连 接 器 
插入 IO 总 控制 输出 的 PCIE 插 槽 。 散 热 片 之 下 是 一 片 
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SAS IO 控制 器 芯片 ， 其 前 端 通过 与 JO 总 控制 器 相同 
的 总 线 / 网 络 类 型 对 接 ， 后 端 则 利用 SAS 接 口 控制 器 与 
其 他 SAS 设 备 连接 ， 比 如 SAS 硬 盘 。 图 7-14 中 右 下 角 
所 示 为 SAS 体 系 的 逻辑 示意 图 。 通 常 ， 服 务 器 类 计算 
机 的 制造 商会 在 机 器 箱 体内 放 一 块 背 板 〈 图 中 右上 角 
所 示 ， 正 反面 ) ， 背 板 上 焊 有 一 片 SAS 交 换 器 ， 所 有 
SAS 硬 盘 先 连 接 到 SAS 交 换 器 ， 再 通过 SAS 线 缆 上 连 
到 SAS IO 控制 器 。 从 这 一 点 上 讲 ，SAS 这 个 网 络 也 是 
利用 复 用 的 方式 将 多 个 SAS 设 备 连接 到 同一 个 SAS 70 
总 控 上 。 

如 果 抛 开 实际 的 物理 实体 ， 抽 象 来 看 的 话 ， 计 
算 机 LO 系统 在 本 质 上 其 实 是 多 个 不 同 网 络 之 间 的 互 
联 ， 如 图 7-15 所 示 。 图 中 的 每 种 颜色 覆盖 的 区 域 都 各 
成 一 派 ， 是 各 自 独立 运行 的 网 络 /总 线 。 而 各 个 IO 控 
制 器 充当 了 路 由 器 的 角色 ， 其 从 后 端 端口 上 利用 后 端 
口 所 在 的 网 络 所 使 用 的 交互 方式 〈 协 议 ) 将 数据 接收 
到 ， 然 后 再 从 前 端 端口 利用 前 端口 网 络 所 使 用 的 协议 
将 数据 发 送 给 上 游 部 件 ， 从 前 端口 接收 数据 发 送 到 后 
端口 的 过 程 也 类 似 。 当 然 ， 这 些 IO 控制 器 比 单纯 的 


XBAR 


例如 : Ethernet ( 以 太 网 ) 


7-15 ”计算 机 IO 本 质 上 是 不 同 网 络 的 互联 和 协议 的 转换 
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网 络 路 由 器 的 处 理 要 稍微 复杂 一 些 ， 其 并 不 仅仅 只 是 
按照 两 边 协议 相互 转发 数据 ， 还 需要 做 一 些 处 理 。 比 
如 前 文中 介绍 的 一 个 SCSI 写 命令 从 主 存 到 SCSI IO 控 
制 器 再 到 硬盘 的 过 程 。SCSI IO 控制 器 从 前 端的 访 存 
网 络 上 遵循 存储 器 读 写 协议 接收 到 了 Host 程 序 发 来 的 
写 命令 ， 它 的 确 是 按照 后 端 SCSI 协 议 的 交互 方式 和 数 
据 包 格式 将 该 命令 又 传递 给 了 SCSI 硬 盘 ，SCSI 硬 盘 
返回 数据 。SCSI IO 控制 器 需要 根据 SGL 中 的 指针 ， 

将 这 些 数据 发 送 到 对 应 的 主 存 地址， 而 并 不 仅仅 是 像 
单纯 网 络 路 由 器 那样 找到 目标 端口 简单 地 发 出 去 就 完 


了 ， 其 “张罗 ”的 东西 更 多 更 杂 一 些 。 

我 们 在 前 文中 假定 的 场景 是 把 VO 控制 器 接 入 到 
片 内 访 存 网 络 ， 所 以 IO 控制 器 前 端的 接口 为 Ring 网 
络 接口 ， 所 以 IO 控制 器 需要 一 个 Ring 控 制 器 接 入 Ring 
网 。 而 现在 把 这 些 I/O 控 制 器 拿 到 外 面 ， 接 入 到 IO 
总 控制 器 上 ， 假 设 使 用 PCIE 与 总 控 连接 ， 那 么 这 些 
LO 控制 器 的 前 端 就 必须 都 从 Ring 控 制 器 更 换 为 PCIE 
控制 器 。 如 图 7-16 所 示 ， 不 管 后 端 是 什么 通道 ， 比 
如 SCSI、SAS、 以 太 网 ， 或 者 SATA， 前 端 统一 使 用 
PCIE 控 制 器 与 总 控 连接 。 


97-16 ”前端 为 PCIE 接 口 的 SCSUSAS/ 以 太 网 IO 控制 器 示意 图 


按理 说 ，“SAS 控 制 器 ”的 说 法 ， 并 不 精确 ， 应 
该 称 图 7-16 中 对 应 的 控制 器 为 “前 端 PCIE 后 端 XXX 
的 IO 控制 器 ” 才 足 够 精确 。 那 么 ， 难 道 还 有 前 端 非 
PCIE 的 以 太 网 控制 器 ? 当然 有 。 你 认为 图 7-17 所 示 的 
这 个 USB 接 口 的 以 太 网 适配器 〈 不 能 叫 它 “ 卡 ”了 ) 
内 部 的 控制 器 是 什么 架构 呢 ? 其 前 端 接口 控制 器 并 不 
是 PCIE， 而 是 USB。 其 前 端 采用 USB 控 制 器 接 入 USB 
总 线 ， 上 连 到 位 于 IO 桥 上 的 USB IO 总 控制 器 。 同 
理 ， 大 家 可 能 都 有 移动 硬盘 ， 其 控制 电路 板 上 就 是 一 
个 前 端 USB 接 口 、 后 端 SATA 接 口 的 IO 控制 器 。 


图 7-17 “可 编程 TO 控制 器 示意 图 


如 图 7-18 所 示 ， 对 于 I/O 总 控制 器 ， 其 也 有 后 端 
和 前 端 。 对 于 PCIE 网 络 总 控制 器 / 主 控 ， 其 前 端 为 
Crossbar 控 制 器 ， 后 端 则 推出 PCIE 网 络 形式 ， 那 么 我 
们 称 该 IO 总 控 为 PCIE 主 控制 器 ， 而 不 是 Crossbar 主 控 
制 器 。 也 就 是 说 ， 叫 “ 某 某 IO 控制 器 ”， 是 取决 于 它 


后 端 挂 接 的 网 络 类 型 。 同 理 ， 图 中 淡 紫 色 为 SCSI IO 
总 控制 器 / 主 控 ， 其 前 端 为 PCIE 接 口 控制 器 ， 后 端 为 
SAS 接 口 控制 器 。 这 里 要 充分 理解 IO 主 控制 器 和 IO 
接口 控制 器 的 区 别 。 前 者 一 般 拥 有 前 端 、 后 端 两 个 不 
同 种 类 的 接口 控制 器 ， 其 本 质 是 一 个 网 络 路 由 器 ; 而 
后 者 则 是 单纯 的 协议 交互 控制 器 ， 其 后 端 就 是 它 所 控 
制 的 网 络 通道 ， 前 端 则 是 纯 寄 存 器 ， 直 接 与 IO 主 控 
制 器 内 部 的 控制 电路 模块 相连 。 

而 如 果 某 个 角色 的 前 端 接口 为 PCIE 接 口 ， 比 如 图 
7-18 中 的 SAS IO 主 控制 器 ， 那 么 我 们 将 该 主 控制 器 称 
为 PCI 设 备 。 也 就 是 说 ， 称 呼 “ 某 某 设备 ”， 是 取决 
于 它 前 端 所 连接 的 网 络 类 型 的 。 同 理 ， 图 中 的 SAS 接 
口 硬盘 则 应 被 称 为 “SAS 设 备 ”， 因 为 它 前 端 连接 到 
了 SAS 网 络 。 而 图 中 的 SCSI 接 口 硬盘 则 被 称 为 SCSI 设 
备 ， 以 太 网 1/O 主 控 则 是 一 个 PCIE 设 备 ， 因 为 它 的 前 
端 与 PCIE 网 络 相连 。 任 何 一 个 1/O 控 制 器 ， 对 其 上 游 
网 络 而 言 是 网 络 上 挂 接 的 一 个 设备 ， 对 其 下 游 网 络 而 
言 ， 则 是 该 网 络 的 总 控 。 

通过 同一 个 网 络 通信 的 双方 必须 采用 符合 该 网 络 
协议 的 、 相 同 的 网 络 接口 控制 器 ， 比 如 都 是 PCIE， 
或 者 都 是 USB、 都 是 SAS，SAS 接 口 控制 器 不 可 能 与 
USB 接 口 控制 器 直接 连 起 来 。 但 是 IO 控制 器 内 部 的 
前 后 端 网 络 控制 器 可 以 不 一 样 ， 因 为 它们 中 间隔 了 个 
处 理 模块 ， 处 理 模 块 与 不 同 的 接口 控制 器 都 采用 寄存 
器 直 连 模式 连接 。 该 处 理 模块 终结 和 屏蔽 了 两 端的 协 
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议 ， 所 以 任何 通信 通路 的 打通 ， 其 底层 本 质 上 其 实 都 
是 被 最 终 回 归 和 统一 在 寄存 器 一 寄存 器 (R—R) 之 
间 了 ，R~R 其 实 是 通信 的 最 初始 形态 。 

以 太 网 是 这 些 IO 控制 器 中 稍微 特殊 的 一 个 ， 以 
太 网 后 端 一 般 会 与 其 他 的 计算 机 而 不 是 设备 连接 。 
如 果 你 将 计算 机 也 称 为 一 种 设备 的 话 ， 本 质 上 也 是 对 
的 。 以 太 网 接口 的 打印 机 ， 其 顺理成章 地 被 认为 是 
“设备 ”， 但 是 其 本 质 上 也 是 一 台 计算 机 。 同 理 ， 用 
USB 或 者 PCIE 接 口 和 某 台 计算 机 连接 起 来 的 ， 也 并 
不 一 定 是 设备 ， 也 可 能 是 一 台 计 算 机 。 所 以 ， 目 前 来 
讲 ， 设 备 本 质 上 就 是 计算 机 。 


有 没有 以 太 网 接口 的 硬盘 设备 ? 比如 ， 以 太 网 
接口 的 硬盘 ? 截至 目前 ， 市 场 上 的 确 存在 一 款 以 太 
网 接口 的 硬盘 产品 ( 用 SATA 的 连接 器 承载 了 以 太 
网 交互 协议 和 数据 包 格 式 ) ， 但 是 其 本 质 上 是 一 台 
独立 的 机 器 ， 并 不 接收 SCSI 或 者 ATA 指 令 ， 而 是 用 
了 其 他 协议 来 访问 其 上 的 数据 ， 所 以 其 并 不 能 算是 
一 款 “ 以 太 网 接口 的 硬盘 ”。 真 正 的 以 太 网 接口 
的 、 接 受 并 执行 SCSI 指 令 的 设备 ， 是 基于 iSCSI 协 
议 的 存储 系统 。 有 兴趣 者 可 参阅 冬瓜 哥 另 一 部 著作 
《大 话 存储 终极 版 》。 


我 们 不 妨 再 回 过 头 来 想 一 下 ， 为 什么 会 存在 这 
么 多 的 网 络 。 其 实 人 们 并 不 想 使 用 如 此 多 不 同 规格 的 
网 络 来 连接 各 类 设备 ， 人 们 恨不得 所 有 设备 都 享受 高 
速度 ， 都 直接 连接 到 片 外 甚至 片 内 访 存 网 络 ， 也 就 是 
与 CPU 核心 靠 得 足 够 近 。 没 有 金刚 钻 ， 别 揽 瓷 器 活 。 
靠近 CPU 核心 意味 着 IO 主 控 的 前 端 接口 控制 器 必须 
与 核 间 访 存 网 络 同 频率 运行 ， 这 种 电路 模块 的 成 本 
比较 高 。 所 以 才 有 了 IO 桥 等 这 些 缓冲 地 带 ，IO 桥 可 
谓 是 个 各 路 不 同 风格 的 MO 主 控 的 集散 地 。 不 同 的 场 
景 ， 催 生 了 不 同 的 IO 路 数 门派 。 有 些 用 总 线 即 可 ， 
有 些 则 必须 用 交换 。 有 些 也 使 用 Ring 方 式 ， 但 是 其 速 
率 比 核 间 Ring 网 络 低 得 多 。 有 些 接 入 一 两 个 设备 就 觉 
得 满足 了 ， 远 够 用 了 ， 有 些 则 设计 为 最 大 可 接 入 2 
个 设备 ， 比 如 SAS。 有 些 总 线 传输 速率 每 秒 几 千 比 特 
就 够 了 ， 比 如 串口 ， 有 些 则 每 秒 数 十 吉 字 节 ， 比 如 
PCIE。 归 根 结 底 ， 都 是 需求 导致 了 这 些 花 样 繁多 的 
IO 总 线 。 比 如 两 台 计 算 机 之 间 ， 如 果 只 为 了 传送 一 
些 命令 字符 ， 即 键盘 敲 字符 ， 再 传送 到 另 一 台 机 器 ， 
这 速度 用 Kbit/s 的 串口 就 够 了 ， 没 必要 非 要 用 以 太 网 
来 传递 。 

早期 ，PCIE 主 控制 器 的 确 是 接 在 IO 桥 上 的 ， 但 
是 PCIE 这 个 标准 体系 也 是 在 不 断 发 展 的 。 到 了 PCIE 
2.0/3.0 时 代 ， 链 路 速率 翻 倍 提升 ， 此 时 IO 桥 的 存在 便 
会 体现 出 瓶颈 ， 所 以 业界 相关 厂商 直接 将 PCIE 主 控 
连接 到 了 CPU 片 内 的 核 间 Ring 上 ， 使 其 直接 与 核心 、 
MC 等 平起平坐 。 截 至 目前 ， 几 乎 所 有 的 商用 高 端 
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CPU 都 是 这 样 设计 的 。 

对 于 计算 机 I/O， 业 界 还 有 一 些 称谓 。 一 般 将 
核 间 Ring、 片 外 QPI 以 及 PCIE 称 为 系统 IO 总 线 ， 而 
将 挂 在 PCIE 后 面 的 IO 控制 器 ， 比 如 SAS、SCSI、 
SATA、 以 太 网 等 ， 称 为 外 部 设备 /0 总 线 。 总 之 ， 
越 靠近 CPU 核心 的 越 “ 系 统 ”， 越 远离 的 越 “ 外 
部 ”， 而 它们 的 本 质 都 相同 ， 都 是 用 于 传送 数据 的 
某 种 网 络 。 


一 台 完 整 计算 机 的 全 狐 


是 时 候 给 出 一 台 计 算 机 的 全 貌 了 。 本 书 截至 此 
处 ， 之 前 介绍 的 都 是 电路 、 芯 片 ， 它 们 集中 在 CPU 内 
部 。 现 在 ， 大 家 已 经 对 IO 系统 有 了 初步 认识 ， 咱 们 
就 来 看 看 人 们 是 如 何 将 这 些 芯 片 、 导 线 、 连 接 器 整合 
到 一 起 成 为 一 台 完 整 计算 机 的 。 各 个 芯片 的 管 脚 信号 
需要 用 导线 连接 起 来 ， 这 些 导 线 被 印刷 在 一 块 塑料 板 
村 上。 当然 ， 塑 料 板材 并 不 是 普通 的 塑料 ， 而 是 具有 
耐 高 温 、 耐 腐蚀 、 抗 干扰 等 对 电信 号 友好 特性 的 特殊 
材料 。 在 第 3 章 中 我 们 也 介绍 过 电路 板 的 制造 过 程 ， 
其 与 芯片 制造 工艺 本 质 上 类 似 ， 但 是 它 由 于 尺寸 大 ， 
所 以 简单 得 多 ， 成 本 也 低 得 多 。 

先 用 一 块 大 板子 将 CPU、 内 存 、PCI/PCIE 等 各 种 
访 存 网 络 、L/O 网 络 的 相关 导线 和 连接 器 布置 好 、 安 
插 好 。 这 块 板子 称 为 主板 / 母 板 (Motherboard) , HU 
主板 更 接地 气 。 

图 7-19 为 一 块 个 人 电脑 的 主板 。 右 侧 为 CPU 插 
座 ， 下 方 的 触 点 用 于 与 CPU 芯片 背面 的 触 点 接触 。 这 
些 触 点 下 方 被 接 到 了 区 入 到 电路 板 中 的 大 量 金属 导线 
上 ， 这 样 信号 就 可 以 被 输出 到 PCIE 插 槽 等 各 处 。CPU 
下 方 的 插 模 可 以 插入 SDRAM 内 存 条 ，SDRAM 的 控制 
器 位 于 CPU 片 内 。 主 板 左下 角 可 以 看 到 一 个 散热 片 ， 
下 方 就 是 1O 桥 芯片 ， 其 周围 有 SATA 接 口 、PCIE 插 


了 .1.9 


图 7-19 普通 个 人 电脑 的 主板 


图 7-20 为 2 路 和 4 路 服务 器 的 主板 。“ 路 ” 指 的 是 
CPU 数量 。 服 务 器 也 是 一 台 计 算 机 ， 只 不 过 比 个 人 电 
脑 在 规格 配置 和 可 靠 性 上 要 高 很 多 ， 专 门 作为 那些 对 
外 服务 的 计算 机 。 比 如 各 种 互联 网 App 运 行 时 需要 从 
服务 器 上 获取 对 应 的 信息 ， 由 于 同时 有 大 量 的 用 户 从 
服务 器 上 获得 数据 ， 服 务 器 需要 运行 大 量 的 线程 ， 需 
要 更 大 的 内 存 、 更 高 的 可 靠 性 。CPU 之 间 的 访 存 网 络 
所 使 用 的 导线 ， 都 被 嵌入 到 了 电路 板 内 部 ， 肉 眼 是 看 
不 到 它们 的 。 

那么 ， 可 增添 的 独立 IO 控制 器 ， 是 怎么 与 主板 
相连 的 呢 ? 图 7-21 为 一 块 焊 有 SAS IO 控制 器 的 板 卡 
(简称 SAS 卡 )， 它 利用 PCIE 连 接 器 (俗称 金 手指 ， 
因为 其 上 并 排 很 多 根 铜 金属 片 ) 插入 主板 上 的 PCIE 
插 槽 ， 插 槽 中 的 金属 与 SAS 卡 的 金 手指 接触 上 后 ， 也 
就 连接 上 了 。 由 于 服务 器 需要 大 量 硬 盘存 储 空间 ， 比 
如 假设 有 12 个 SAS 接 口 的 硬盘 ， 这 些 硬盘 先 插入 到 一 
个 背 板 上 ， 背 板 的 背面 有 一 片 SAS 交 换 芯片 ， 所 有 硬 
盘 SAS 接 口 连接 到 SAS 交 换 器 ， 然 后 再 从 交换 器 的 上 
行 端口 ， 用 专用 的 SAS 线 缆 ， 连 接 到 SAS 卡 的 SAS 接 
НЕ. 

同 理 ， 以 太 网 络 I/O 控 制 器 所 在 的 板 卡 被 称 为 以 
太 网 卡 ， 声 音 IO 控 制 器 卡 就 是 声卡 ， 显 卡 也 如 此 。 
这 些 卡 都 插 在 PCIE 插 槽 上， 前 端 利 用 PCIE 接 口 控制 
器 与 CPU 上 的 PCIE 网 络 总 控制 器 相连 ， 后 端 推 出 各 自 
的 接口 。 以 太 网 推出 以 太 网 口 ， 声 卡 推出 3.5 mm 声音 
模拟 信号 插 孔 ， 显 卡 推 出 HDMIVGA 等 承载 屏幕 像素 
显示 信和 号 的 接口 。 整 个 计算 机 IO 实物 全 景 如 图 7-22 所 
示 。 这 些 声卡 、 显 卡 、 网 卡 、SAS 卡 ， 又 被 称 为 HBA 
(Host Bus Adapter， 主 机 总 线 适 配器 ) ， 即 将 各 种 外 
部 IO 总 线 /网 络 ， 连 接 、 对 接 、 适 配 到 主机 端的 1O 总 
线 / 网 络 比如 PCIE 上 。 所 以 ， 下 面 这 些 俗称 都 是 指 同 
一 类 设备 : 网 卡 声卡 显卡 SAS 卡 、PCIE 卡 、IO 卡 、IO 
通道 卡 、IO 控 制 器 、IO 扩 展 卡 、 网 络 适 配器 、 显 示 适 
配器 。 

然而 ， 网 络 、 声 音 、 图 像 、 存 储 是 计算 机 的 四 
有 上肢。 一 台 基 本 的 计算 机 ， 尤 其 是 个 人 电脑 ， 必 须 有 这 
4 大 件 。 如 果 买 一 块 主板 ， 还 得 同时 去 买 4 张 HBA 卡 回 
来 插 上 的 话 ， 这 太 费 劲 了 。 于 是 几乎 所 有 生产 主板 的 
厂商 ， 都 直接 把 对 应 的 声音 IO 控制 器 、SATA ТО 
制 器 、 以 太 网 IO 控制 器 芯片 焊接 到 主板 上 ， 导 线 直 
连 CPU 上 的 PCIE 控 制 器 。 这 种 方式 被 称 为 “ 板 
载 IO 控制 器 ”。 网 卡 的 以 太 网 口 直接 在 主板 侧面 放 
置 ，SATA 硬 盘 接口 则 在 主板 表面 放置 。I/O 控 制 器 
也 有 众多 厂商 在 设计 制造 ， 至 于 选择 哪 一 款 IO 控 制 
器 ， 主 板 厂 商 直 接 蔡 用 户 做 了 选择 。 由 于 精细 的 图 像 
显示 需要 较 大 的 计算 量 ， 在 早期 ， 几 乎 都 需要 一 个 独 
立 的 显示 IO 控制 器 来 完成 这 些 计算 ， 但 显示 IO 控制 
器 价格 较 贵 ， 所 以 一 般 鲜 有 主板 厂商 集成 显示 控制 器 
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图 7-21 服务 器 内 SAS 卡 与 硬盘 的 连接 方式 


图 7-22 计算 机 LO 实物 全 景 图 


到 主板 上 ， 但 是 仍 有 一 些 这 样 做 。 图 7-23 中 从 左 到 右 。 太 过 常用 ， 也 就 轮 不 到 主板 厂 商 操心 了 ， 做 IO 桥 芯 
分 别 为 板 载 显 示 IO 控 制 器 、 板 载 以 太 网 LO 控制 器 、 片 的 厂商 直接 将 SATA IO 控制 器 集成 到 桥 片 内 部 了 ， 
板 载 声音 IO 控制 器 的 主板 。 SATA 连 接 器 也 直接 安放 在 主板 上 。 上 文 图 7-22 中 的 用 

SATA IO 控制 器 哪里 去 了 ? SATA IO 控制 器 由 于 545 HBA 接 入 十 几 块 SAS 硬 盘 的 场景 ， 多 用 于 服务 器 
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图 7-23 板 载 显卡 /网 卡 /声卡 


场景 ， 以 提供 更 好 的 性 能 和 容量 。 

做 芯片 的 厂商 在 业界 被 视 为 上 游 厂 商 ， 而 做 主 
板 、HBA 等 产品 的 厂商 相对 就 是 下 游 厂商 。 集 成 和 
板 载 是 有 区 别 的 。 集 成 是 指 被 集成 在 某 个 芯片 〈LIO 
桥 或 者 CPU) 内 部 ， 而 板 载 指 的 是 IO 控制 器 芯片 依 
然 是 独立 的 一 片 ， 只 不 过 被 直接 焊接 到 主板 上 ， 不 
用 通过 连接 器 再 插 到 主板 上 。 所 以 ，“ 集 成 声卡 /网 
卡 /显卡 ”的 说 法 与 “ 板 载 声 卡 /网 卡 /显卡 ”是 不 同 的 
意思 。 

如 果 对 画面 有 更 高 的 要 求 ， 尤 其 是 3D 实 时 泻 染 
要 求 ， 有 些 用 户 需 要 更 加 高 端的 独立 显卡 ， 那 么 可 以 
购买 并 插入 PCIE 插 模 。 声 卡 也 类 似 。 不 过 高 端 独 立 声 
卡 对 音质 的 提升 并 没有 显卡 那样 明显 ， 只 有 一 些 合金 
耳 用 户 青睐 它们 ， 所 以 高 端 独立 声卡 比较 冷门 。 冬 瓜 
哥 是 个 3D 游 戏 画 面 党 ， 先 后 购买 过 NVDIA 公 司 的 多 
款 旗舰 高 端 显 卡 。 后 文 将 全 面 介绍 3D 图 象 的 的 泻 染 过 
程 ， 以 及 声卡 发 声控 制 过 程 。 


7.2 中断 处 理 


我 们 前 文中 介绍 过 利用 中 断 方式 来 处 理 IJO， 也 
介绍 过 CPU 核心 内 部 有 一 个 专门 接收 中 断 信号 并 负责 
内 部 状态 切换 的 专用 模块 《核心 内 中 断 控制 器 ) 。 那 
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么 ， 在 CPU 外 部 ， 中 断 在 物理 上 是 怎么 实现 的 ? 设备 
的 中 断 信号 又 是 如 何 跨越 PCIPCI 网 络 到 达 CPU 核 心 
的 ? 本 节 就 试图 解释 这 个 问题 。 

我 们 先 来 看 一 下 中 断 体系 的 全 貌 。 在 你 的 最 原 
始 认 知 里 ， 可 能 中 断 就 是 如 图 7-24 左 侧 所 示 的 一 根 
信号 线 的 事情 。 如 果 整 个 计算 机 只 有 一 个 外 部 设 
备 ， 那 中 断 的 确 这 么 简单 。 可 是 ， 计 算 机 的 外 部 设 
备 太 多 了 ， 有 通过 PCI 总 线 /PCIE 网 络 接 入 系统 的 ， 
也 有 通过 其 他 方式 接 入 的 比如 P/S2、 串 口 等 ， 这 些 
设备 控制 器 也 需要 发 出 中 断 信 号 ， 所 以 一 根 线 恐 怕 
是 不 够 的 。 

为 此 ， 人 们 摘出 一 个 中 断 中 继 器 ， 如 图 7-24 中 间 
部 分 所 示 。 该 中 继 器 推出 多 个 中 断 信号 线 ， 也 就 是 图 
中 的 IRQ# (Interrupt Request， 中 断 请 求 ) ， 比 如 Intel 
早期 的 8259A PIC (Programable Interrupt Controller, 
可 编程 中 断 控制 器 ) 有 8 个 中 断 信号 线 。 但 是 该 中 继 
器 与 CPU 仍然 只 通过 一 根 信号 线 相连 。 当 任何 一 个 设 
备 产 生 中 断 信 号 时 ， 该 中 继 器 便 也 向 CPU 发 出 一 个 中 
断 信号 。 这 种 多 对 一 映射 的 方式 ， 如 何 让 CPU 分 清楚 
到 底 是 哪个 设备 产生 的 中 断 呢 ? 

该 中 继 器 在 IRQ# 上 接收 到 中 断 信 号 之 后 ， 将 生 
成 一 个 编码 并 存储 到 中 断 向 量 寄存 器 中 ， 比 如 收 到 
IRQ#8 信 号 则 生成 01000010 串 码 。 具 体 的 生成 规则 ， 
可 以 静态 固定 ， 也 可 以 动态 配置 。8259A 芯 片 提供 了 
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7-24 ”外 部 设备 的 中 断 体系 架构 变迁 


对 应 的 寄存 器 ， 程 序 可 以 将 对 应 的 配置 规则 写 入 到 该 
寄存 器 来 改变 IRQ# 与 该 串 码 的 映射 规则 。 

如 果 中 断 控 制 器 同时 收 到 多 个 IRQ# 信 号 ， 则 根据 
优先 级 优先 级 策略 也 是 可 以 通过 片 内 控制 寄存 器 来 
配置 的 ， 所 以 其 称 为 可 编程 中 断 控制 器 ) ， 生 成 对 应 
的 串 码 。 这 个 串 码 被 称 为 中 断 向 量 ， 存 储 它 的 寄存 器 
就 是 中 断 向 量 寄存 器 。 正 是 利用 这 个 串 码 ，CPU 可 以 
区 分 目前 的 中 断 到 底 是 哪个 RQ# 发 来 的 。 


为 什么 不 直接 把 [RQ# 号 码 作为 中 断 向 量 存储 到 
中 断 向 量 寄存 器 中 呢 ? 为 什么 需要 将 其 变 成 别 的 编 
码 ? 因为 不 仅仅 只 有 外 部 设备 会 发 出 中 断 ， 有 时 候 
软件 也 可 以 主动 触发 中 断 CPU， 让 CPU 跳 转 到 某 个 
中 断 服务 程序 上 执行 ， 这 就 是 所 谓 的 软 中 断 ， 具 体 
执行 “Int 中 断 向 量 号 ”机 器 指令 。 而 有 些 内 部 的 
运行 异常 也 会 中 断 CPU， 比 如 代码 中 出 现 了 除 以 0 
时 ， 此 时 CPU 自己 中 断 自己 ， 也 就 是 电路 会 产生 一 
个 固定 的 中 断 向 量 号 ， 然 后 CPU 跳 转 到 该 向 量 号 对 
应 的 错误 处 理 程序 上 去 运行 ， 从 而 向 用 户 报告 这 个 
错误 。 所 以 你 可 以 看 到 ， 外 部 设备 的 中 断 号 只 是 一 
部 分 ， 所 以 你 不 能 说 外 部 设备 的 1 号 中 断 就 是 所 有 
中 断 号 中 的 1 号 ， 不 能 刻 舟 求 剑 。 所 以 需要 将 外 部 
设备 中 断 号 融入 系统 全 局 中 断 号 ， 一 般 来 讲 对 应 的 
策略 是 直接 加 上 一 个 基础 号 码 ， 这 个 基础 号 码 会 被 
设备 管理 程序 在 配置 中 断 控制 器 时 写 入 到 其 对 应 的 
控制 寄存 器 中 ， 这 样 每 次 中 断 控制 器 就 可 以 用 中 断 
号 + 基础 号 码 ， 得 出 最 终 的 中 断 向 量 号 。 


我 们 下 文中 不 再 使 用 “中 断 中 继 器 ”这 个 词 ， 
转 为 使 用 “中 断 控制 器 ”， 或 者 简称 PIC。 系 统 加 电 
之 后 ， 需 要 对 PIC 上 的 这 些 控制 寄存 器 进行 初始 化 配 
置 ， 必 须 中 断 向 量 与 RQ# 的 映射 策略 、 中 断 优先 级 策 
略 等 ， 需要 写 入 对 应 的 值 ， 这 个 工作 由 PIC 驱动 程序 
完成 。PIC 驱 动 程序 如 何 访问 PIC 的 控制 寄存 器 呢 ? 

如 图 7-25 左 侧 所 示 ，PIC 的 这 些 控制 寄存 器 ， 会 
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被 BIOS 提 前 映射 到 CPU 的 地 址 空间 中 〈BIOS 会 配置 
系统 底层 的 地 址 路 由 表 ， 凡 是 访问 对 应 物理 地 址 的 请 
求 均 被 路 由 到 连接 着 PIC 的 总 线 接 口上 ) ， 程 序 直接 
访问 即 可 。 如 图 7-25 所 示 为 该 中 断 控 制 器 的 控制 寄存 
器 地 址 。 仔 细 观 察 的 话 会 发 现 其 中 蹊跷 ， 这 些 寄存 
器 地 址 在 左 图 中 显示 为 “LO 范围 ”， 而 右 图 中 的 高 
精度 时 间 计 时 器 设备 的 寄存 器 地 址 却 显 示 为 “内 存 范 
围 ”。 两 者 的 区 别 何在 ? 

实际 上 ， 在 很 早期 的 时 候 ，CPU 并 不 是 采用 访 存 
地 址 来 访问 外 部 IO 设备 的 寄存 器 的 ， 而 是 采用 所 谓 
“IO 地 址 ”。 这 相当 于 CPU 除了 有 内 存 地 址 和 数据 
总 线 、 控 制 总 线 之 外 ， 还 增加 了 一 套 IO 地 址 和 数据 
总 线 ， 后 者 专门 用 于 访问 IO 设备 的 寄存 器 ， 而 访问 
内 存 时 才 走 内 存 地 址 /数据 总 线 ， 一 直到 后 来 ， 内 存 
和 外 部 LO 设备 寄存 器 才 被 统一 到 同一 个 地 址 /数据 总 
线 上 。 早 期 访问 IO 寄存 器 也 并 不 是 使 用 Load/Stor 指 
令 ， 而 是 采用 In/Out 指 令 ， 这 样 ，CPU 内 的 电路 收 到 
这 个 指令 便 知道 本 次 需要 访问 IO 总 线 而 不 是 内 存 总 
线 。 由 于 兼容 性 原因 ，LIO 访 问 方式 被 保留 了 下 来 ， 
多 数 设 备 已 经 不 采用 IO 地 址 了 。 而 图 7-25 所 示 的 PIC 
依然 采用 了 IO 地 址 。 

中 断 到 来 后 ，CPU 内 部 的 中 断 处 理 模块 临时 将 正 
在 执行 的 线程 的 现场 保护 好 之 后 ， 首 先 要 做 开门 应 
答 的 动作 ， 也 就 是 告诉 PIC“ 收 到 中 断 了 马上 开始 处 
理 ， 你 也 别 按 门 铃 了 松手 吧 ”， 具 体 也 是 通过 发 送 一 
个 Interrupt Acknowledge 总 线 信号 给 PIC， 后 者 则 设置 
内 部 的 相关 控制 寄存 器 以 清除 中 断 触发 状态 。 注 意 ， 
此 时 外 部 IRQ# 上 依然 持续 地 在 被 对 应 的 IO 设备 按 着 
门铃 ， 只 不 过 此 时 PIC 不 再 当 它 是 新 来 的 门铃 《如何 
从 源头 上 消除 对 应 设备 的 按 门 铃 信号 见 下 文 ) 。 然 
后 CPU 的 中 断 处 理 模块 会 接着 再 发 送 一 个 总 线 信 号 
给 PIC， 要 求 其 将 中 断 向 量 寄 存 器 中 的 数值 发 到 总 线 
上 。CPU 拿 到 这 个 值 ， 到 位 于 内 存 中 的 中 断 向 量 表 中 
查询 对 应 该 值 的 中 断 服务 程序 入 口 指针 ， 然 后 跳 转 到 
该 中 断 服务 程序 执行 。 上 述 这 个 过 程 完全 由 CPU 内 的 
中 断 处理 模 块 处 理 ， 不 需要 运行 任何 机 器 指令 。 
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本 书 之 前 章节 中 提 到 过 ，BIOS 很 关键 。BIOS 程 序 
首先 发 现 系 统 中 的 所 有 设备 ， 根 据 对 应 规则 ( 有 些 
定 死 ， 有 些 则 动态 分 配 ) 为 这 些 设 备 的 寄存 器 分 配 
物理 地 址 (或 IO 地 址 ， 见 上 文 ) ; 然后 配置 底层 访 
存 网 络 的 路 由 表 ， 让 CPU 能 够 用 访 存 或 者 IO 地 址 访 
问 到 这 些 寄 存 器 ， 在 内 存 中 生成 一 张 设备 信息 描述 
表 ; 然后 初始 化 配置 PIC 中 断 控 制 器 ， 向 PIC 对 应 的 
控制 寄存 器 中 写 入 对 应 的 IRQ# 号 ~ 中 断 向 量 号 映射 
规则 控制 字 ; 然后 在 内 存 中 生成 中 断 向 量 表 ， 将 设 
备 驱动 程序 所 注册 的 中 断 服务 程序 的 入 口 指针 与 相 
应 的 中 断 向 量 号 对 应 起 来 ( 其 实 是 直接 使 用 中 断 向 
量 号 作为 序号 ， 比 如 00001100 号 中 断 向 量 对 应 表 中 
的 第 12 行 上 放置 的 入 口 程序 指针 ) 。 


然后 ，CPU 开 始 执行 中 断 服务 程序 的 指令 。 中 断 
服务 程序 所 做 的 第 一 件 事 就 是 与 对 应 的 IO 设备 进行 
直接 通信 ， 也 就 是 直接 访问 对 应 IO 设备 的 对 应 控制 
寄存 器 〈 驱 动 程序 会 从 BIOS 生 成 的 设备 配置 信息 表 
中 获取 到 自己 所 驱动 设备 的 寄存 器 或 者 1O 地 址 ) , 
告诉 它 “ 别 按 门 铃 了 俺 来 啦 ”。 要 知道 ，PIC 之 所 以 
发 中 断 给 CPU， 是 因为 其 某 个 IRQ# 上 有 设备 正在 按 
门铃 ， 源 头 在 IO 设备 端 ， 只 有 驱动 程序 能 够 对 其 消 
音 。 然 后 ， 驱 动 程序 继续 访问 设备 的 寄存 器 ， 以 获取 
该 设备 发 出 中 断 的 原因 ， 并 做 后 续 处 理 。 如 果 是 IO 
设备 完成 了 一 个 IO， 将 完成 消息 写 入 了 主 存 中 的 完 
成 队列 ， 那 么 中 断 服 务 程序 还 需要 继续 处 理 一 下 这 个 
已 经 完成 的 IO。 

如 果 之 前 是 有 多 个 IRQ# 同 时 发 生 的 话 ， 按 照 优 
先 级 ，CPU 只 处 理 了 其 中 一 个 。 但 是 此 时 ，CPU 告 诉 
PIC“ 我 已 经 在 处 理 了 ， 请 松 开 按 门铃 的 手 ” 之 后 ， 
由 于 其 他 IRQ# 的 门铃 依然 被 按 着 ， 所 以 在 下 一 个 时 钟 
周期 ，PIC 依 然 会 继续 产生 中 断 信 号 ， 也 就 是 再 次 生 
成 新 的 中 断 向 量 ， 再 次 中 断 CPU，CPU 再 次 进入 中 断 
响应 流程 。 如 果 上 一 个 中 断 还 没有 被 处 理 完 之 前 下 一 
个 中 断 就 到 来 的 话 ， 这 就 产生 了 中 断 嵌 套 ， 不 过 这 没 
有 什么 问题 ， 因 为 CPU 被 中 断 之 前 都 会 保护 之 前 任务 
的 现场 ， 恢 复 后 继续 处 理 。 

图 7-26 中 为 冬瓜 哥 电脑 上 存在 的 一 些 外 部 LO 设备 


人 们 通常 将 用 于 中 继 所 有 IO 设备 的 中 断 信号 的 
外 部 中 断 控制 器 称 为 JO 中 断 控制 器 ， 而 将 位 于 CPU 
内 部 的 处 理 中 断 请 求 的 模块 称 为 CPU 本 地 中 断 控制 
器 。 值 得 一 提 的 是 ， 不 仅 外 部 IO 设备 可 以 向 CPU 发 
出 中 断 ， 多 个 CPU 之 间 也 可 以 互相 发 起 中 断 ， 后 者 
被 称 为 处 理 器 间 中 断 ( Inter Processor Interruption, 
IPI) 。 在 第 6 章 中 我 们 在 讲述 多 核心 CPU 体系 结 
构 、 系 统 启 动 初始 化 过 程 的 时 候 ， 曾 经 介绍 过 IPI 的 
实际 使 用 场景 。IPI 就 是 通过 CPU 的 本 地 中 断 控 制 器 
发 出 的 。 一 个 CPU 可 以 将 自己 收 到 的 外 部 中 断 请 求 
通过 IPI 转 手 给 其 他 CPU 处 理 ，IPI 物 理 上 对 应 着 一 
个 在 CPU/ 核 心 互联 访 存 总 线 上 传递 的 消息 ， 其 中 
包含 要 跳 转 到 的 程序 入 口 地 址 以 及 其 他 参数 ， 其 他 
CPU/ 核 心 拿 到 信息 之 后 可 以 直接 执行 对 应 的 中 断 服 
务 程序 。 理 论 上 ，IPI 还 可 以 用 来 传递 其 他 任何 类 型 
的 消息 。IO 中 断 控 制 器 和 CPU 本 地 中 断 控制 器 都 会 
暴露 一 些 控制 寄存 器 到 物理 地 址 空间 ， 系 统 BIOS 
会 负责 将 它们 映射 到 对 应 地 址 ， 程 序 通过 访问 这 些 
地 址 ， 向 其 中 写 入 对 应 的 控制 信息 ， 达 到 控制 它们 
工作 的 目的 。 比 如 向 本 地 中 断 控 制 器 对 应 控制 寄存 
器 中 写 入 对 应 的 值 ， 触 发 其 发 出 IPI 中 断 消 息 。 这 个 
底层 写 寄存 器 的 操作 ， 会 被 封装 成 一 些 函数 ， 比 如 
send ipiO。 当 你 阅读 一 些 源 代码 的 时 候 ， 可 以 不 断 
和 追踪 这 些 函 数 的 具体 实现 ， 发 现 最 后 一 步 总 是 将 某 
个 值 写 入 到 某 个 寄存 器 地 址 。 


我 们 再 来 看 图 7-24 的 最 右 侧 部 分 。 在 一 个 多 CPU 
场景 下 ，IO 中 断 控制 器 应 该 如 何 与 CPU 相连 ? 实际 
上 ， 当 时 人 们 新 设 了 一 个 单独 的 总 线 ， 叫 作 中 断 信号 
总 线 ， 也 就 是 将 IO 中 断 控制 器 的 中 断 信号 与 所 有 CPU 
的 中 断 接 收 线 连接 在 同一 个 总 线 上 ， 并 设置 单独 的 总 
线 信 号 以 便 让 IO 中 断 控 制 器 可 以 选择 将 中 断 信号 发 
送 给 哪个 CPU。 这 可 有 点 犯难 啊 ! 因为 任何 一 个 CPU 
都 可 以 处 理 任何 中 断 ， 每 个 CPU 都 可 以 根据 内 存 中 的 
中 断 向 量 表 找 到 中 断 服务 程序 来 执行 ， 谁 执行 都 是 一 
样 的 《有 些许 不 同 ， 如 果 待 处 理 的 数据 在 某 个 CPU 组 
存 内 ， 而 中 断 却 被 发 送 到 其 他 CPU 上 ， 其 他 CPU 恰好 
要 访问 这 些 数 据 ， 此 时 会 产生 CC 同步 流量 ， 从 而 影 
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响 性 能 ) 。 早 期 ， 在 这 种 场景 下 ， 中 断 控 制 器 将 中 断 
默认 只 发 送 给 某 个 固定 CPU， 当 然 ， 这 会 导致 该 CPU 
的 负载 较 高 。 后 来 做 了 一 些 优化 ，LO 中 断 控制 器 上 
也 做 了 一 些 改进 ， 比 如 可 以 根据 不 同 的 中 断 向 量 ， 
均衡 地 轮流 向 多 个 CPU 发 起 中 断 请 求 ， 这 种 技术 叫 作 
IRQ Balance, IRQ Balance 也 可 以 通过 不 依赖 JO PIC 
提供 的 均衡 能 力 ， 而 是 利用 软件 来 处 理 ， 先 接收 IO 
PIC 的 中 断 ， 然 后 根据 系统 当前 的 CPU 负载 状况 ， 动 
态 地 利用 IPI 中 断 将 收 到 的 外 部 中 断 转手 给 其 他 CPU 
处 理 ， 也 可 以 使 用 轮 询 的 方式 ， 比 如 可 以 在 中 断 控 制 
器 上 设置 一 个 32 位 寄存 器 ， 该 寄存 器 中 的 每 个 位 与 系 
统 中 的 一 个 CPU 核心 相对 应 。 当 收 到 外 部 中 断 时 ， 中 
断 控制 器 检查 该 寄存 器 ， 发 现 哪个 位 是 1， 就 将 该 中 
断 导 向 哪个 CPU 核心 。 该 CPU 核心 执行 中 断 服务 程 序 
时 ， 中 断 服务 程序 会 执行 额外 的 一 步 操作 ， 就 是 将 该 
寄存 器 中 的 下 一 个 位 置 1， 之 前 为 1 的 位 置 0。 这 样 ， 
再 次 发 生 中 断后 ， 该 中 断 将 会 被 导向 到 下 一 个 CPU 核 
心 ， 周 而 复 始 循环 ， 这 样 就 可 以 实现 轮 询 了 。 其 他 的 
一 些 具 体 实 现 方法 就 不 多 介绍 了 。 

这 个 改进 版 的 IO 中 断 控制 器 内 部 的 功能 也 更 加 
强大 和 复杂 ， 也 就 需要 提供 更 多 的 控制 寄存 器 以 供 配 
置 其 工作 模式 ， 包 括 IRQ Balance 策 略 等 。Intel 平 台 将 
改进 版 的 PIC 称 为 APIC 〈(A 表 示 Advanced) ，APIC 依 
然 分 为 JO APIC 和 CPU 本 地 的 Local APIC。 由 于 采用 
了 单独 的 APIC 总 线 与 多 个 CPU 互联 ， 这 就 使 得 APIC 
可 以 直接 将 中 断 向 量 主动 告诉 CPU， 而 不 是 再 像 之 前 
那样 只 能 通过 一 根 导线 的 电 平 信号 来 中 断 CPU， 后 者 
再 来 主动 获取 中 断 向 量 。 

再 后 来 ， 每 个 CPU 芯片 变 成 了 多 核心 ， 每 个 核心 
都 配 有 一 个 Local APIC， 整 个 系统 依然 配 有 单独 的 一 
个 IO АРС (一 般 位 于 IO 桥 上 ) ， 如 图 7-27 所 示 。 对 
于 一 个 规模 变 得 更 大 的 系统 来 讲 ， 单 独 设立 一 个 中 断 
信和 号 总 线 就 不 太 合适 了 。 为 何不 能 将 中 断 信号 封装 成 
消息 ， 载 入 核 间 、CPU 片 间 的 访 存 网 络 上 传递 呢 ? 是 
的 ， 目 前 的 主流 多 核 CPU 就 是 这 么 做 的 。 关 于 中 断 就 
先 介绍 到 这 里 ， 在 7.4 节 中 我 们 会 结合 PCI/PCIE 更 深 
入 了 解 中 断 。 在 那 之 前 我 们 需要 先 对 网 络 系统 有 个 基 
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本 认识 ， 打 一 下 基础 ， 因 为 计算 机 内 部 其 实 是 一 个 大 
网 络 。 


7.3 网 络 通信 系统 


大 家 在 思考 时 请 抓 住 下 面 三 个 本 质 。 

(1) IO 设备 接收 的 只 有 三 种 信息 : 数据 操作 命 
令 ( 比 如 SCSI 命 令 ) 和 对 应 的 辅助 描述 信息 〈 比 如 数 
据 所 在 的 位 置 指针 等 ) 、 数 据 、 控 制 字 /信息 。 

(2) 你 可 以 用 任何 可 能 的 方式 传送 上 面 这 些 
信息 。 
直接 将 命令 及 其 描述 、 数 据 、 控 制 字 写 入 到 IO 控 
制 器 ， 暴 露 在 全 局 地 址 空间 中 的 寄存 器 中 ， 后 者 收 到 
执行 ， 返 回 的 数据 和 状态 也 都 放置 到 寄存 器 中 ，Host 
端 程序 不 断 读 取 这 些 寄存 器 从 而 拿 到 数据 和 状态 。 

也 可 以 先 用 Stor 指 令 将 各 种 队列 指针 等 控制 字 写 
入 IO 控制 器 的 相应 寄存 器 ， 从 而 对 IO 设备 进行 配置 
(比如 通告 给 IO 控制 器 队列 指针 ， 设 置 运行 模式 ， 
禁止 /使 能 中 断 等 ) ， 然 后 将 命令 和 数据 在 主 存 中 准备 
好 ， 将 队 首 指针 写 入 寄存 器 ， 触 发 IO 控制 器 自己 去 
主 存 中 取 回 命令 、 描 述 和 数据 。 

LO 控制 器 甚至 可 以 不 暴露 任何 寄存 器 给 全 局 地 
址 空间 ，Host 端 程序 也 不 用 任何 存储 器 读 写 来 访问 IO 
控制 器 ， 而 是 把 控制 、 数 据 、 元 数据 通过 总 线 /网 络 控 
制 器 直接 发 送 给 IO 控制 器 ，LIO 控 制 器 接收 到 这 些 信 
息 之 后 放 在 哪里 ，Host 端 并 不 用 关心 。IO 控 制 器 处 理 
完 命令 之 后 ， 如 果 是 读 命令 ， 则 将 读 出 的 数据 缓存 在 
内 部 缓冲 中 ，Host 端 主动 通过 总 线 /网 络 控制 器 发 一 个 
“把 数据 给 我 ”的 请 求 ，I/O 控 制 器 便 将 数据 返回 给 
Host 端 的 总 线 /控制 器 ， 后 者 再 将 数据 写 入 主 存 。 这 种 
方式 与 前 文 介绍 过 的 方式 都 不 同 。 下 面 要 介绍 的 USB 
协议 ， 就 是 这 种 交互 方式 。 

G) 你 也 可 以 利用 不 同 的 总 线 /介质 ， 跨 越 多 个 
不 同 的 总 线 /网 络 ， 来 传递 这 些 信 息 ， 比 如 直接 使 用 片 
内 Ring 网 络 ， 或 者 先 经 过 Ring， 再 转手 给 IO 桥 ， 再 转 
手 给 PCI IO 总 控制 器 ， 或 者 还 会 转手 到 某 个 网 络 中 ， 
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最 终 转手 给 最 后 一 级 MO 控制 器 。 

要 充分 理解 上 述 过 程 的 本 质 : 其 目标 就 是 CPU 核 
心 要 将 数据 发 送 给 IO 控制 器 或 者 从 其 得 到 数据 。 为 
了 实现 这 个 目标 ， 我 们 现 有 的 材料 有 不 同 的 访 存 网 络 
(可 以 承载 存储 器 地 址 读 写 请 求 的 ， 比 如 Ring 等 ) 若 
干 、 不 同 的 非 访 存 网 络 (通常 或 者 设计 之 初 并 不 是 
为 了 承载 存储 器 地 址 读 写 请 求 的 网 络 ， 比 如 SCSI、 
SATA、SAS、 以 太 网 等 ) 若干 、 在 这 些 网 络 边界 上 进 
行 协议 转换 和 路 由 的 控制 器 (LO 总 控 器 或 者 边缘 的 LO 
控制 器 ) 若干 、 导 线 若干 。 大 家 可 以 先 自行 思考 一 下 
如 何 实现 该 目标 。 前 文 已 经 给 出 了 一 些 例子 ， 大 家 此 
刻 也 可 以 回忆 和 总 结 一 下 可 能 的 几 种 方式 。 

下 面 就 来 介绍 两 种 最 为 常用 的 、 最 典型 的 IO 网 
络 /总 线 : PCIE 和 USB 。PCIE 属 于 系统 级 IO 网 络 ， 
USB 属 于 外 部 设备 IJO 网 络 ， 那 就 意味 着 USB IO 总 控 
制 器 可 以 挂 接 到 PCIE 网 络 中 成 为 一 个 PCIE 设 备 ， 
再 将 各 种 USB 终 端 设备 挂 接 到 USB 网 络 上 。 还 记得 
吗 ， 越 靠近 CPU 核心 的 越 “ 系 统 ”。 另 外 ， 越 靠近 
CPU 核心 的 也 越 “ 访 存 ”， 也 就 是 越 倾向 于 采用 存 
储 器 地 址 读 写 的 方式 与 核心 交互 数据 。 越 远离 CPU 
核心 的 越 不 访 存 ， 越 倾向 于 采用 消息 的 方式 来 传送 
信息 ， 比 如 SAS 网 络 上 传送 的 是 SCSI 命 令 及 对 应 的 
数据 。 

PCIE 属 于 访 存 网 络 ， 直 接 承载 存储 器 地 址 读 写 
请 求 ，USB 属 于 非 访 存 网 络 ， 通 信 的 两 端 根 本 看 不 到 
对 方 的 寄存 器 数量 和 地 址 。 然 而 ， 如 上 文 所 述 ， 看 不 
到 寄存 器 、 不 能 寻 址 ， 并 不 妨碍 命令 及 其 描述 、 数 据 
和 元 数据 的 传送 。 我 们 将 承载 存储 器 地 址 读 写 请 求 的 
网 络 称 为 访 存 网 络 ， 而 将 非 访 存 网 络 称 为 消息 网 络 。 
USB、SAS、 以 太 网 就 属于 消息 网 络 。 

在 详细 介绍 这 些 网 络 之 前 ， 我 们 需要 先 介绍 一 
些 背景 知识 ， 也 就 是 通信 的 双方 交互 数据 的 一 些 基 
本 方式 和 术语 。 不 管 什么 方式 的 网 络 、 通 信 ， 有 线 
或 者 无 线 的 、 模 拟 或 者 数字 的 、 机 械 的 电子 的 、 电 
脑 间 的 、 两 人 用 嗓子 喊话 的 等 ， 这 些 形式 的 底层 机 
制 、 步 骤 都 是 类 似 的 。 人 们 根据 这 些 通信 方式 ， 总 结 
出 一 套 描述 模型 ， 叫 作 开放 系统 互联 (Open System 
Interconnection ，OSI) ， 该 标准 由 国际 标准 组 织 
制定 。 


7.3.1 OSI 七 层 标准 模型 


思考 一 下 ， 通 信 的 意义 是 一 方 将 某 种 “ 意 
识 ”“ 表 达 ” 并 “传递 ”给 另 一 方 。 刚 生 下 来 的 婴儿 
在 头脑 中 已 经 产生 了 “意识 ”， 但 是 不 能 够 用 语言 表 
达 ， 但 是 可 以 用 肢体 动作 表达 ， 比 如 不 停 器 可 能 是 饿 
了 ， 小 嘴 不 停 地 品 或 者 手 在 嘴巴 上 足 那 一 定 是 饿 了 。 
这 个 肢体 运动 现象 ， 通 过 光线 的 变化 ， 被 你 的 视神经 
感受 到 了 ， 然 后 传递 给 大 脑 ， 大 脑 解析 该 运动 ， 只 要 
不 缺 心眼 的 都 知道 ， 该 喂 宝宝 了 。 于 是 本 次 通信 达到 


了 目的 。 

对 于 成 人 而 言 ， 其 表达 方式 更 加 体系 化 ， 而 且 
更 加 优雅 化 。 比 如 你 迷路 了 找 人 问 路 ， 你 此 时 已 经 可 
以 用 标准 语言 来 表达 意图 ， 并 且 要 表达 的 信息 可 以 通 
过 声带 震动 传递 给 空气 ， 并 让 对 方 的 耳膜 产生 跟随 震 
动 。 但 是 如 果 此 时 你 看 到 对 面 走 过 来 一 个 人 ， 上 去 
就 说 “二 惕 子 大 街 100 号 怎么 走 ”， 那 人 的 回复 可 能 
是 : «КАЙА ТА? 不 用 找 了 ! ”为 什么 ? 因 
为 你 太 没 礼貌 ， 仍 然 保 持 着 婴儿 时 代 的 “ 品 哗 就 赶紧 
给 我 喂奶 ”的 思维 模式 。 此 时 ， 显 然 ， 你 应 该 先 向 对 
方 表达 这 样 一 个 意思 : “你 好 ， 抱 次 打 扰 一 下 ， 我 能 
问 个 路 么 ? ”对 方 会 说 ，“ 啊 ， 去 哪儿 ? ”或 者 直接 
用 肢体 语言 ， 点 个 头 。 当 然 ， 如 果 对 方 也 没 礼貌 或 者 
没 听 到 ， 可 能 会 直接 不 理 你 。 这 个 过 程 ， 视 为 一 种 建 
立 握手 或 者 说 建立 会 话 的 过 程 ， 即 先 和 对 方 打 个 招呼 
让 他 集中 精力 应 对 你 。 

总 结 一 下 ， 上 述 通 信 过 程 基 本 概括 为 ， 先 把 “会 
话 /握手 ”这 个 意思 表达 成 语言 ， 然 后 输送 到 传递 单元 
上 ， 比 如 声带 、 肌 肉 ， 通 过 介质 (比如 真空 电磁 波 、 
空气 等 ) 传递 到 对 方 ， 对 方 从 介质 中 接收 信号 ， 将 信 
号 输送 到 大 脑 中 的 逻辑 单元 进行 译 码 /解析 ， 做 出 反 
应 。 做 出 的 反应 也 是 一 种 “意思 ”， 也 要 被 表达 成 语 
言 ， 并 传递 回 通信 发 起 方 。 这 就 建立 了 一 个 会 话 ， 然 
后 再 传递 真正 想 要 表达 的 核心 意思 。 

计算 机 也 是 这 样 通信 的 ， 不 管 是 同一 台 计 算 机 
上 运行 的 多 个 线程 ， 还 是 不 同 计算 机 上 运行 的 多 个 线 
程 ， 它 们 之 间 的 通信 方式 都 有 着 上 述 类 似 过 程 ， 只 不 
过 每 一 步 的 形式 有 差别 ， 比 如 ， 声 带 输出 的 是 模拟 信 
号 ， 而 网 卡 输出 的 是 数字 信号 ， 等 等 。 
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你 要 表达 的 意图 ， 就 是 所 谓 应 用 层 (Application 
Layer) 。 对 于 动物 来 讲 ，“ 意 图 ”可 能 就 那么 几 
F: 饿 了 要 找 食 物 ， 受 到 入 侵 要 攻击 或 者 逃跑 ， 等 
等 。 对 于 人 类 而 言 ，“ 意 图 ”可 就 太 多 了 ， 每 天 的 生 
活 、 工 作 、 娱 乐 、 休 息 等 过 程 中 存在 大 量 的 意思 。 对 
于 计算 机 来 讲 ，“ 意 图 ”涵盖 的 内 容 同样 很 多 ， 比 如 
在 一 个 网 页 上 包含 各 种 各 样 的 含义 ， 比 如 图 片 、 文 
本 、 表 格 、 视 频 ， 以 及 所 有 这 些 元 素 的 组 成 形式 、 排 
布 在 屏幕 的 哪个 位 置 ， 等 等 。 

应 用 层 ， 指 的 就 是 “含义 ”本 身 ， 以 及 生成 这 些 
意思 的 程序 。 


7.3.1.2 ”表示 层 


上 述 这 些 意思 的 实际 表达 形式 ， 就 是 表示 层 ， 比 
如 编码 成 ASCII 码 的 字母 、 字 母 组 成 的 单词 、 单 词组 
成 的 句子 、 句 子 组 成 的 文章 、 文 章 被 保存 为 txt 格 式 
的 文件 ， 或 者 被 编码 好 的 声音 ， 并 被 保存 为 wav 格 式 
的 文件 。 意 思 仅 仅 是 你 大 脑 中 产生 的 原始 诉求 ， 要 将 
其 翻译 成 语言 ， 要 有 一 定 的 语法 、 主 谓 宾 。 另 外 ， 还 


有 标点 符号 用 于 断 句 ， 否 则 不 知道 哪里 是 一 名 的 开始 
和 结束 ， 比 如 视频 文件 的 每 一 幅 画 面 帧 都 有 开始 和 结 
束 标识 。 同 理 ， 上 面 这 些 文件 格式 都 遵循 对 应 的 编码 
规则 。 一 个 网 页 上 的 所 有 元 素 ， 也 都 遵循 相应 的 编码 
规则 ， 比 如 HTML 格 式 ， 或 者 说 HTML 语 言 。 下 面 的 
HTML 格 式 描述 的 意思 就 是 用 对 应 的 字体 、 字 号 显示 
对 应 的 文字 “这 就 是 表示 层 ”。 

<html> 

<title>HTML</title> 

<style type="text/css"> 

= 

“STYLEl { 

font-family: "ЖФ"; 

font-size: 4; 

) 

.bodyl{ftext-decoration: underline;) 

--> 

</style> 

</head> 

<body> 

<р class="STYLE1"><strong> 这 </strong><em> 
就 </em><strong><font class="body1"> 是 </font></ 
strong><br/> 表 示 层 

</р> 

</body> 

</html> 

表示 层 ， 就 是 指 对 应 意思 的 表达 形式 ， 以 及 将 意 
思 转 换 为 对 应 表达 形式 的 处 理 模块 /程序 。OSI 模 型 虽 
然 是 一 个 标准 ， 但 是 该 标准 仅仅 是 一 个 大 框架 总 结 ， 
并 没有 规定 某 种 场景 必须 用 某 种 表示 层 格式 。 你 完全 
可 以 发 明 自 己 的 表示 层 格式 语言 ， 但 是 不 管 你 发 明了 
什么 格式 ， 它 都 属于 表示 层 。 


7.3.1.3 会 话 层 


有 了 要 表达 的 意思 ， 并 且 也 使 用 对 应 的 格式 表 
达 了 出 来 ， 下 一 步 当然 是 要 将 这 封装 好 的 信息 传递 给 
对 方 。 这 些 封 装 好 的 、 拥 有 表示 层 完 整 格式 的 数据 
信息 ， 被 称 为 消息 (Message) 。 消 息 可 以 是 各 种 格 
式 、 长 度 的 数据 ， 比 如 你 在 QQ 上 输入 100 字 的 中 文句 
子 ， 点 击发 送 按钮 ， 这 句 话 就 是 一 条 消息 ; 你 访问 一 
个 网 页 ， 网 页 上 的 数据 量 非常 庞大 ， 可 能 会 分 为 多 个 
消息 分 批 次 传送 ， 至 于 每 个 消息 多 大 ， 完 全 由 收发 双 
方 的 程序 预先 定义 。 正 如 上 文中 所 示 ， 你 不 能 毫 无 征 
兆 就 直接 跟 对 方 传递 你 最 终 的 消息 ， 必 须 先 寒 罚 一 
下 。 正 如 入 和 人 之 间 一 样 ， 计 算 机 之 间 也 需要 做 这 件 
事 。 首 先 应 该 传递 “打招呼 ”的 意思 ， 将 其 表示 成 对 
应 格式 的 消息 。 

冬瓜 哥 是 个 直截了当 的 实在 人 ， 但 是 直截了当 
并 不 意味 着 就 可 以 直接 说 主题 ， 除 非 在 特定 场景 下 。 
ЖА, НЕ НРАВЫ? 计算 机 没有 感 
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情 ， 不 管 你 是 二 惕 子 还 是 三 模子， 本 不 应 嫌弃 。 但 
是 ， 和 人 脑 一 样 ， 计 算 机 内 部 也 需要 对 应 资源 来 处 理 
外 界 发 来 的 信息 。 比 如 计算 机 正在 做 其 他 事情 ， 没 有 
对 应 的 存储 空间 来 接收 外 界 的 消息 ， 结 果 突 然 就 来 了 
一 个 消息 ， 弄 得 计算 机 措手不及 ， 现 去 分 配 缓冲 区 会 
手忙脚乱 、 效 率 低下 。 更 好 的 做 法 是 ， 向 计算 机 发 送 
消息 之 前 ， 先 发 送 一 个 “你 好 ， 我 要 给 你 发 消息 了 
啊 ” 的 消息 ， 对 方 收 到 这 个 消息 ， 预 先 准备 对 应 的 资 
源 ， 比 如 缓冲 区 ， 甚 至 创建 新 线程 来 单独 处 理 接收 到 
的 数据 ， 做 完 这 些 工 作 之 后 ， 对 方 返回 一 个 “请 讲 ” 
消息 ， 本 地 收 到 后 ， 才 发 送 对 应 的 消息 。 所 以 ， 计 算 
вир аин, е т Е. 

打 完 招呼 ， 就 开始 说 话 ， 那 么 ， 具 体 的 交谈 方式 
又 是 怎样 的 ? 是 一 问 一 答 型 ? 还 是 各 说 各 话 型 ? 抑或 
是 一 方 说 话 另 一 方 只 听 不 回 型 ? 根据 不 同 应 用 场景 ， 
这 些 方式 都 存在 。 打 招呼 及 之 后 的 交谈 形式 ， 就 是 所 
谓 的 会 话 层 。 

应 用 层 、 表 示 层 和 会 话 层 ， 这 三 层 是 紧 耦 合 关 
系 ， 需 要 由 用 户 应 用 程序 来 实现 。 要 表达 什么 意思 、 
怎么 表达 、 怎 么 打招呼 、 怎 么 交谈 ， 完 全 由 应 用 程序 
说 了 算 ， 每 个 应 用 程序 的 这 三 层 可 能 千差万别 。 大 家 
耳熟能详 的 Web、HTTP、FTP、SMTP、Telnet 等 ， 其 
实 都 是 对 应 的 应 用 程序 及 对 应 的 表示 方式 。 比 如 Web 
浏览 器 是 一 个 应 用 程序 ， 其 能 够 解析 并 展示 在 网 页 上 
的 数据 格式 为 HTML 格 式 ， 而 HTML 格 式 的 数据 在 浏 
览 器 和 网 页 服务 器 之 间 的 交互 /交谈 方式 为 HTTP 方 式 
/协议 。 俗 称 的 “FTP 协 议 ”， 其 实 指 的 就 是 用 FTP 的 
数据 包 格式 和 交谈 方式 来 传输 文件 。 

但 是 不 管 怎样 ， 这 三 层 最 终 都 体现 为 数据 流 。 
打招呼 消息 、 交 谈 中 “我 说 完了 ， 该 你 说 了 ”等 控 
制 消 息 都 是 一 串 比特 流 ， 只 要 将 其 发 送 给 接收 方程 
序 ， 对 方 就 可 以 解析 出 其 中 的 含义 ， 从 而 做 出 相应 
的 动作 。 


7.3.1.4 ”传输 层 


不 管 是 打招呼 的 信息 、 交 谈 控 制 消息 ， 还 是 最 
终 谈话 的 内 容 消息 ， 都 需要 传递 给 对 方 。 有 时 候 ， 你 
和 对 方 打招呼 ， 对 方 可 能 没 听 到 ， 你 不 得 不 再 次 打 招 
呼 ， 直 到 他 听 到 为 止 。 为 什么 听 不 到 呢 ? 可 能 有 多 种 
原因 。 要 么 是 由 于 距离 太 远 ， 你 发 出 的 声波 根本 没有 
效 传递 过 去 ， 中 途 就 被 其 他 噪声 干扰 了 ， 而 人 脑 又 做 
不 到 像 模拟 电路 一 样 降 噪 和 滤波 。 要 么 他 的 耳 杀 鼓膜 
的 确 被 打招呼 消息 声波 震动 了 ， 但 是 他 的 大 脑 此 时 由 
于 正在 专心 处 理 其 他 事情 ， 而 没有 感受 到 耳 神 经 传递 
过 去 的 信号 ， 或 者 感受 到 了 被 潜意识 自动 忽略 了 。 或 
者 ， 他 的 大 脑 中 枢 的 确 收 到 了 该 信号 ， 并 且 进 入 了 中 
断 服 务 程序 处 理 ， 但 是 处 理 的 结果 是 : 现在 忙 ， 先 忽 
略 之 。 或 者 ， 处 理 结果 是 : 可 能 是 听 错 了 ， 先 忽略 一 
次 ， 如 果 再 打招呼 ， 再 应 答 。 除 了 第 一 条 原因 之 外 ， 
后 面 这 些 原因 是 发 送 方 无 法 控制 的 。 
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好 了 ， 我 们 可 以 看 到 ， 通 信和 是 两 厢 情 愿 的 事情 。 
你 向 对 方 打 了 招呼 ， 对 方 不 管 出 于 什么 原因 ， 有 可 能 
不 应 答 ， 而 此 时 你 不 能 直接 就 开始 说 正事 ， 否 则 你 
MEET., М, ЖИВ ГИ, НИКС 
应 答 ， 可 能 会 认为 “架子 挺 大 啊 ， 我 可 不 吃 你 这 套 ， 
继续 说 我 的 ”， 此 时 你 已 升级 到 了 三 横 子 ， 因 为 你 
并 没有 多 想 想 ， 对 方 可 能 真 的 没 听 到 呢 ? 所 以 ， 正 
常 的 通信 过 程 一 定 是 ， 发 送 方 发 出 一 条 消息 ， 消 息 
不 管 是 招呼 、 控 制 ， 还 是 内 容 ， 接 收 方 必须 发 出 一 
个 应 答 消息 “ 收 到 ” (Acknowledge, ACK) 。 
为 通信 介质 是 不 稳定 的 ， 不 管 是 空气 震动 ， 真 空 电 
磁 波 ， 铜 线 /光纤 上 的 信号 ， 它 们 都 时 刻 受到 外 界 干 
扰 。 所 以 发 送 的 消息 还 需要 进行 校 验 计算 并 将 校 验 
码 附 在 数据 包 包头 中 一 并 发 送 ， 接 收 方 收 到 之 后 对 
消息 重新 校 验 并 与 附属 的 校 验 码 比 对 。 如 果 不 同 ， 
证 明 消 息 传输 过 程 中 受到 了 干扰 产生 了 乱码 ， 则 该 消 
息 直接 丢弃 ， 同 时 回复 一 个 “请 重复 刚才 的 消息 ” 
(Negative Acknowledge, NAK) 。 此 外 ， 网 络 上 
的 交换 机 等 设备 ， 也 有 可 能 由 于 内 部 缓冲 区 满 Сй 
出 ) 而 丢掉 后 续 传 来 的 数据 包 。 发 送 方 收 到 应 答 消 
息 之 后 才 会 继续 发 送 下 一 条 / 批 消息 。 如 果 经 过 预 
设 时 间 还 未 收 到 应 答 ， 则 尝试 重新 传输 对 应 消息 ， 
如 果 还 未 收 到 ， 则 采取 其 他 更 强硬 措施 比如 强行 中 
断 会 话 过 程 。 对 方 可 能 并 不 知道 发 送 方 已 经 不 管 它 
了 ， 如 果 此 时 才 发 送 “ 收 到 ”， 则 发 送 方 可 以 回答 
一 个 “什么 收 到 ， 说 什么 呢 ? 的 消息 ， 则 接收 方 就 
知道 了 “看 来 对 方 是 强行 结束 了 之 前 的 会 话 过 程 
了 ”， 然 后 将 自己 内 部 原先 分 配 的 资源 清除 。 发 送 
方 可 以 重新 尝试 发 起 一 轮 会 话 过 程 。 

另外 ， 还 有 个 问题 需要 考虑 。 如 果 每 发 送 一 条 
消息 ， 就 期 待 对 方 一 个 “ 收 到 ”， 这 样 是 不 是 太 低 效 
了 。 假 设 每 条 消息 需要 1 s 的 时 间 传送 到 对 方 ， 那 么 
对 方 应 答 消 息 回来 也 需要 1 s， 这 样 ， 每 两 秒 才 能 传送 
一 条 消息 。 如 果 能 够 改 一 改 规则 ， 发 送 若干 条 消息 之 
后 ， 接 收 方 用 一 条 应 答 消息 把 之 前 发 送 的 所 有 消息 都 
应 答 了 ， 这 就 高 效 多 了 。 然 而 这 样 的 设计 却 带 来 了 另 
外 的 问题 。 首 先 ， 发 送 方 必 须 将 那些 对 方 还 没有 应 答 
确认 的 数据 包 暂 存在 一 个 缓冲 区 里 ， 一 旦 对 方 无 应 答 
超时 或 者 由 于 乱码 导致 发 送 NAK 消 息 ， 则 发 送 方 会 尝 
试 重 传 对 应 的 消息 。 而 如 果 是 一 条 一 条 传送 、 应 答 ， 
那么 发 送 方 缓冲 区 只 需要 保留 一 条 消息 空间 的 缓冲 区 
即 可 。 所 以 ， 批 量 传输 、 应 答 方式 需要 耗费 更 多 内 存 
空间 。 

此 外 ， 批 量 传输 、 应 答 方式 还 会 导致 接收 消息 
乱 序 问题 。 网 络 上 可 能 存在 大 量 的 交换 机 路 由 器 设 
备 ， 网 络 拓扑 可 能 非常 复杂 而 且 灵 活 ， 通 信 双 方 之 间 
可 能 存在 多 条 网 络 路 径 ， 有 时 候 一 条 路 上 比较 拥挤 
(比如 缓冲 队列 近 满 ) ， 而 另 一 条 路 很 通畅 ， 那 么 
网 络 设备 可 能 会 动态 将 数据 包 从 通畅 的 路 上 转发 出 
去 。 带 来 的 一 个 后 果 : 发 送 方 后 发 送 的 消息 可 能 先 


抵达 了 接收 方 ， 此 时 接收 方 如 果 不 将 收 到 的 数据 消 
息 按 序 重 排 ， 那 就 会 导致 逻辑 错误 。 比 如 发 送 方 发 
送 “ 你 ”“ 好 ”“ 冬 ”“ 瓜 ”“ 哥 ”， 接 收 方 的 接 
收 顺序 变 为 了 “好 ?” “你 ”“ 冬 ”“ 瓜 ”“ 哥 ”， 
那么 冬瓜 哥 收 到 可 能 会 回复 “哎呀 ， 咋 啦 ， 好 害 
怕 啊 ”。 

相 比 所 有 消息 都 走 固定 路 径 而 保证 消息 的 顺序 ， 
充分 利用 网 络 链 路 带宽 资源 显然 更 加 重要 ， 因 为 花 了 
高 昂 成 本 在 地 球 上 部 署 的 光纤 ， 如 果 不 能 充分 利用 的 
话 ， 是 极 大 浪费 。 为 了 解决 消息 乱 序 到 达 的 问题 ， 发 
送 方 必须 为 每 个 消息 打上 一 个 标签 ， 该 标签 内 含有 消 
息 序 号 ， 以 及 其 他 一 些 传送 控制 信息 。 接 收 方 收 到 数 
据 包 之 后 ， 按 序 重 排 ， 缺 了 哪个 消息 ， 就 等 待 哪个 到 
来 ， 直 到 有 连续 序号 的 消息 到 来 ， 再 将 其 传送 到 上 游 
缓冲 区 ， 等 待 后 续 程序 的 处 理 。 同 时 ， 接 收 方 在 应 答 
消息 中 ， 也 应 该 带 有 “我 已 经 收 到 xx 号 数据 包 之 前 的 
所 有 数据 包 ” 的 信息 ， 这 样 ， 发 送 方 就 可 以 将 这 些 已 
经 应 答 的 消息 从 发 送 缓冲 区 中 删除 (缓冲 区 其 实 是 一 
个 Ring Buffer， 直 接 修改 对 应 的 队列 指针 即 可 ) ， 以 
腾 出 空间 给 后 续 的 消息 。 

难道 只 能 一 个 字 一 个 字 地 发 么 ， 一 次 发 一 整 名 
是 否 可 以 ? 引申 一 下 ， 直 接 将 100MB 的 数据 作为 一 
条 消息 发 送出 去 可 以 么 ? 这 牵扯 到 另外 一 个 问题 ， 即 
消息 数据 包 尺寸 限制 问题 。 每 条 消息 数据 包 的 尺寸 不 
能 超过 某 个 值 ， 原 因 有 几 点 。 首 先 ， 底 层 网 络 IO 控 
制 器 是 按照 一 帧 一 帧 向 网 线 上 传送 数据 的 ， 该 帧 有 一 
定 大 小 限制 〈 比 如 以 太 网 的 一 帧 通常 最 大 为 1500 字 
节 ) ， 这 取决 于 传送 链 路 的 性 质 ， 有 些 链 路 连续 传送 
大 量 用 户 数据 之 后 ， 通 信 双 方 的 时 钟 会 变 得 不 同步 而 
导致 问题 。 其 次 ， 对 于 上 行 链 路 ， 会 有 多 个 计算 机 的 
数据 帧 排队 等 待 传输 ， 如 果 某 个 数据 帧 太 大 的 话 ， 那 
么 其 他 数据 帧 等 待 的 时 间 就 会 加 长 ， 导 致 体验 变 差 ， 
这 就 像 一 个 十 字 路 口 的 红绿灯 ， 你 可 以 让 绿灯 持续 亮 
一 小 时 ， 但 是 等 红 灯 的 人 一 定 不 愿意 ， 所 以 ， 公 平 是 
限制 帧 长 度 的 一 个 最 重要 原因 。 再 者 ， 网 络 IO 控 制 
器 需要 从 Host 端 主 存 缓冲 区 中 取 数 据 ， 缓 冲 区 的 大 小 
是 有 限制 的 ，Host 主 存 资源 有 限 ， 一 般 无 法 分 配 太 大 
的 缓冲 区 ， 数 据 只 能 碎片 化 ， 一 小 份 一 小 份 放置 ， 并 
用 环形 队列 追踪 组 织 起 来 。 网 络 帧 的 尺寸 限制 被 称 为 
最 大 传输 单元 (Maximum Transfer Unit，MTU) ， 不 
同 的 网 络 MTU 值 不 同 ，MTU 值 是 根据 综合 考虑 而 敲 
定 的 。 

另外 ， 如 果 一 次 传送 太 大 量 的 数据 ， 一 旦 该 数据 
中 有 一 小 部 分 被 干扰 ， 那 么 出 于 速度 效率 考虑 ， 双 方 
采用 的 是 只 能 验 错 而 不 能 纠 错 的 算法 ， 就 无 法 判断 具 
体 是 哪里 产生 了 错误 以 及 如 何 修复 错误 ， 所 以 只 能 将 
这 份 数据 全 部 丢弃 ， 并 通知 发 送 方 重 传 ， 这 极度 浪费 
了 网 络 带 宽 资 源 。 还 有 ， 如 果 一 份 数据 太 大 ， 则 接收 
方 必须 将 该 数据 全 部 接收 完 之 后 ， 才 会 通知 上 游程 序 
“有 新 数据 到 了 请 来 处 理 ”， 这 个 延迟 太 大 了 。 如 果 


数据 能 切片 ， 一 小 片 一 小 片 传递 ， 那 么 接收 方 的 处 理 
程序 可 以 更 快 拿 到 数据 ， 虽 然 数据 本 身 并 不 完整 ， 但 
是 程序 可 以 经 过 设计 ， 也 跟着 一 点 一 点 处 理 数据 ， 这 
样 形成 类 似 流水 线 的 过 程 ， 反 而 能 够 提高 最 终 数据 处 
理 速 度 。 从 这 个 角度 考虑 而 敲定 最 大 传输 单元 ， 称 为 
最 大 分 段 长 度 (Maximum Segment Size, MSS) 。 与 
MTU 不 同 的 是 ，MSS 并 不 是 被 网 络 I/O 控 制 器 及 对 应 
网 络 架构 而 限制 住 的 。 可 以 这 样 理解 : 假设 存在 某 种 
网 络 ， 其 MTU 可 达 1GB， 即 便 如 此 ，MSS 也 不 敢 达到 
1GB。 为 什么 ? 因为 上 述 的 传输 错误 和 延迟 方面 的 原 
因 。 一 般 来 讲 ，MSS 的 值 原生 是 大 于 MTU 的 ， 但 是 通 
常 MSS 的 值 设置 为 与 MTU 相 等 。 

但 是 ， 因 为 这 个 限制 就 禁止 程序 发 出 大 于 MTU 
的 消息 ， 这 是 不 现实 的 ， 会 极 大 增加 用 户 程序 的 复 
ЖЕ ЗЕН ЛЕ НВО ЈЕ: QQ 程序 本 想 发 出 
“ 走 ， 一 起 吃饭 去 ”， 结 果 由 于 MSS 和 MTU 限 制 ， 
不 得 不 先 发 出 “ 走 ， 一 起 ”， 再 发 出 “吃饭 去 ”。 接 
收 端 程序 每 收 到 一 个 帧 ， 就 解析 其 中 编码 ， 显 示 在 屏 
幕 上 ， 那 么 会 先 显示 出 “ 走 ， 一 起 ”。 如 果 下 一 个 网 
络 帧 由 于 各 种 原因 迟 迟 不 到 达 ， 那 么 接收 方 会 感到 非 
常 迷 惑 ， 一 起 去 干什么 ? 所 以 ， 针 对 这 种 情况 ， 表 示 
层 要 做 好 预先 的 处 理 ， 比 如 在 每 条 消息 头 部 加 上 头 部 
标识 ， 尾 部 也 加 上 标识 。 这 样 ， 就 算 这 条 信息 被 拆 分 
发 送 ， 接 收 方 仅 当 在 全 部 接收 到 头 部 标识 和 尾部 标识 
之 后 ， 才 将 这 条 消息 显示 出 来 ， 就 不 会 产生 上 述 问 
题 了 。 这 相当 于 给 表达 的 信息 加 上 标点 符号 等 定 界 
信息 。 

但 是 ， 解 决 了 上 述 问题 ， 依 然 无 法 避免 必须 由 
程序 主动 将 待 发 送 的 数据 进行 切片 ， 如 图 7-28 所 示 。 
假设 应 用 程序 有 两 条 消息 要 发 送 ， 每 一 条 都 是 一 个 独 
立 的 含义 ， 不 能 拆 分 来 阅读 理解 。 那 么 ， 程 序 必须 给 
这 两 条 消息 加 上 头 尾 标识 。 然 后 ， 为 了 满足 MSS 的 限 
制 ， 程 序 需要 将 制作 好 的 消息 数据 进行 切片 ， 并 按照 
顺序 将 这 些 切片 数据 包 附 上 对 应 的 序号 。 第 一 个 切片 
的 序号 为 0， 第 二 个 切片 的 序号 为 第 一 个 数据 切片 的 
长 度 ， 第 三 个 切片 的 序号 为 第 二 个 切片 的 序号 + 第 二 
个 切片 的 数据 长 度 ， 以 此 类 推 。 图 中 假设 头 尾 标识 占 
1 字 节 。 

然而 ，MSS 切 片 数 据 包 只 是 满足 了 数据 校 验 粒 
度 、 延 迟 等 方面 的 要 求 ， 其 并 不 一 定 符合 底层 网 络 IO 
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控制 器 的 MTU 要 求 。 所 以 ， 一 旦 MSS 的 值 大 于 MTU 
的 值 ， 那 么 这 些 数 据 包 还 需要 再 被 切片 一 次 ， 生 成 
MTU 切 片 。 如 图 7-28 最 后 一 行 所 示 ， 一 个 长 度 大 于 
MTU 值 的 MSS 切 片 被 切 成 两 份 ， 实 际 上 如 果 MSS 切 片 
长 度 很 大 的 话 ， 很 可 能 被 切 成 更 多 片 。 为 了 让 接收 方 
能 够 重新 组 合 这 些 切 片 ， 势 必要 对 MTU 切 片 继 续 编 上 
序号 。 这 些 序号 与 MSS 切 片 中 的 序号 并 不 相同 ,MTU 
切片 中 的 序号 描述 的 是 “该 MTU 切 片 在 MSS 切 片 内 
部 的 字 节 偏 移 量 ”， 那 就 意味 着 ， 如 果 有 多 个 MSS 切 
片 被 切 分 为 多 个 MITU 切 片 ， 那 么 势必 会 有 偏 移 量 相同 
的 两 个 MTU 切 片 出 现 。 比 如 图 中 绿色 的 将 号 MTU 切 
片 以 及 蓝 色 的 扒 号 MTU 切 片 ， 它 俩 偏 移 量 相同 ， 这 样 
接收 方 就 无 法 分 辨 该 切片 到 底 属于 哪个 MSS 切 片 。 所 
以 还 需要 再 增加 一 层 区 分 机 制 ， 也 就 是 图 中 的 彩色 块 
字段 。 凡 是 从 同一 个 MSS 切 片上 切 下 来 的 MTU 切 片 ， 
该 字段 的 值 者 相同， 这样， 接收 方 利用 该 标识 ， 再 利 
用 序号 标识 ， 就 可 以 进行 重 排序 了 。 对 于 该 标识 字 
段 ， 发 送 方 每 发 送 一 个 MSS 切 片 ， 就 在 上 一 个 标识 的 
基础 上 +1， 用 到 下 一 个 MSS 切 片 所 切 出 来 的 MTU 切 
НЕ, 

一 个 MSS 切 片 中 的 任何 一 个 MTU 切 片上 只 要 丢失 ， 
整个 MSS 切 片 就 得 被 重 传 。 因 为 接收 方 是 以 MSS 切 片 
作为 接收 和 重 传单 位 的 。 正 因 如 此 ， 为 了 避免 二 次 切 
片 ，MSS 的 值 通常 被 设计 为 与 MTU 值 匹配 。 

再 思考 一 个 问题 ， 如 果 两 个 人 同时 和 一 个 人 说 
话 ，A 和 你 谈 生 意 ，B 和 你 拉 家 常 ， 可 以 么 ? 必须 可 
以 。 一 台 计 算 机 必须 能 够 同时 接受 和 处 理 多 台 计 算 机 
的 通信 请 求 和 数据 ， 以 及 能 够 处 理 某 台 计算 机 上 的 两 
个 独立 程序 分 别 发 来 的 通信 请 求 和 数据 。 那 么 ， 是 不 
是 需要 开发 一 个 能 够 同时 处 理 生意 和 家 常 的 程序 ， 而 
且 能 够 根据 发 送 过 来 的 数据 包 自 动感 知 到 某 个 数据 包 
是 来 谈 生意 的 ? 这 不 现实 。 最 好 的 办 法 是 ， 对 数据 包 
再 次 加 以 区 分 ， 谈 生意 和 拉 家 常 的 数据 包 自 成 一 路 或 
者 说 数据 流 ， 该 数据 流 中 所 有 数据 包 独 立 编号 ， 不 
与 其 他 数据 流 混淆 。 同 时 ， 谈 生意 的 程序 与 拉 家 常 
的 程序 各 自 独立 互 不 干扰 。 假 设 A 和 B 是 两 个 位 于 其 
他 计算 机 上 的 独立 程序 ， 使 用 同一 个 网 络 IO 控制 器 
收发 数据 ，C 和 D 是 本 地 计算 机 上 的 两 个 独立 程序 ， 
这 种 情况 下 ， 如 何 让 C 和 DD 两 个 程序 分 别 接受 A、B 发 
来 的 数据 ? 显然 ， 需 要 在 数据 包 上 增加 一 个 数据 流 区 
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分 号 ， 比 如 A<->C 采 用 数据 流 #0，B<->D 采 用 数据 流 
#1， 这 两 个 数据 流 中 的 MSS 切 片 数 据 包 独立 编号 ， 
就 算 有 相同 的 编号 ， 它 们 也 不 冲突 ， 井 水 不 犯 河水 。 
这 个 数据 流 编号 被 称 为 端口 号 。 发 送 方 程序 与 接收 方 
程序 必须 事先 约定 好 使 用 哪个 端口 号 通信 ， 发 送 方 在 
每 个 发 出 的 数据 包头 中 附带 该 端口 号 ， 接 收 方程 序 也 
只 接收 带 有 该 端口 号 标识 的 数据 包 。 实 际 上 ， 发 送 方 
和 接收 方 的 Host 端 都 运行 着 一 套 专门 处 理 传输 控制 过 
程 的 程序 ， 通 信 双 方 只 要 委托 该 程序 ， 发 送 方 调用 该 
程序 提供 的 函数 告诉 它 “ 我 要 用 端口 号 6666 与 对 方 通 
信 ”， 接 收 方 也 用 对 应 函数 告诉 它 “ 我 要 接收 端口 号 
6666 的 所 有 数据 ， 放 到 指针 A 指 向 的 缓冲 区 ， 有 数据 
来 了 请 调用 函数 B 通 知 我 ”。 这 样 ， 接 收 方 的 传输 控 
制程 序 就 可 以 将 对 应 端口 号 的 数据 放置 到 对 应 的 缓冲 
区 ， 然 后 调用 对 应 的 函数 。 

总 结 一 下 ， 发 消息 的 整体 方式 和 规则 、ACK/ 
NAK/Retry 控 制 、 对 消息 的 校 验 、 乱 序 重 排 控制 、 缓 
冲 区 管理 、 消 息 的 切 分 打包 、 端 口号 管理 这 些 步骤 和 
控制 过 程 规 范 ， 属 于 传输 层 要 负责 的 部 分 。 对 应 的 处 
理 步骤 和 规则 ， 被 称 为 传输 控制 协议 (Transportation 
Control Protocol, ТСР) 。 目 前 最 为 常用 的 网 络 传输 
控制 协议 是 TCP 协 议 。 当 然 还 有 很 多 其 他 传输 控制 协 
议 ， 不 过 它们 要 么 被 淘汰 了 ， 要 么 只 用 于 一 些 专用 封 
闭 网 络 上 或 者 封闭 系统 里 。 传 输 控 制 协议 根本 不 关心 
上 层 让 它 传送 什么 格式 的 消息 ， 就 像 快递 员 根 本 不 关 
心包 囊 里 的 内 容 一 样 。 这 些 传输 控制 协议 一 般 运行 在 
Host 端 ， 其 物理 体现 形式 就 是 一 堆 驻 留 在 Host 端 主 存 
中 的 函数 ， 等 着 上 游 用 户 程序 〈 发 送 数据 时 ) 或 者 中 
断 服务 程序 〈 收 到 数据 时 ) 来 调用 。 

上 文 所 述 被 附加 到 实际 数据 之 前 的 序号 、 端 口号 
等 控制 信息 ， 称 为 数据 包 的 包头 ， 而 数据 包 中 实际 的 
数据 部 分 称 为 有 效 载 荷 (Payload) 。 

应 用 程序 想 要 发 起 与 其 他 计算 机 上 程序 的 通信 ， 
可 以 调用 TCP 传 输 控 制 协议 处 理 程序 所 提供 的 API 接 
口 ， 比 如 Send0。 而 上 文中 一 大 堆 复杂 的 逻辑 ， 全 部 
交 给 TCP 处 理 程序 来 处 理 即 可 。 

那么 ， 带 有 各 种 包头 的 MTU 切 片 最 终 是 怎么 传递 
给 对 方 计算 机 呢 ， 当 然 是 网 络 1/O 控 制 器 ， 网 络 可 以 
是 以 太 网 、SAS、SATA、SCSI、FC、Infiniband 等 ， 
网 络 1/O 的 基本 套路 前 文 已 经 介绍 过 了 。 但 是 , 会 有 
大 量 计算 机 接 入 到 网 络 上 ， 发 送 方 的 MTU 切 片 到 底 是 
发 给 哪 台 计 算 机 的 ? 这 是 个 问题 。 这 就 好 比 : “给 你 
介绍 个 对 象 ， 请 于 明天 下 午 2 点 准时 相亲 ! ”一 样 ， 
缺 了 什么 信息 ? 看 出 来 了 么 ? 
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包头 上 ， 那 就 是 网 络 地 址 信息 。 网 络 上 的 每 台 计 算 机 
必须 有 一 个 区 分 标识 ， 也 就 是 网 络 地 址 。 每 个 数据 包 
必须 携带 网 络 地 址 ， 以 便 让 网 络 路 由 器 区 分 该 数据 包 
到 底 是 发 给 谁 的 。 网 络 路 由 器 不 需要 关心 包头 内 的 序 
号 等 信息 ， 只 关心 和 检查 网 络 地 址 。 这 就 像 快递 公司 
的 分 拨 中 心 一 样 ， 哪 管 你 包 庄 里 面 是 什么 ， 只 看 收 件 
人 城市 名 ， 连 收 件 人 都 不 看 的 。 目 前 最 常用 而 且 几 乎 
统治 了 整个 计算 机 网 络 的 地 址 格式 为 耳 地 址 。 

网 络 上 的 计算 机 是 如 何 获得 自己 的 了 P 地 址 的 呢 ? 
可 以 静态 分 配 ， 也 可 以 动态 获取 〈 比 如 通过 DHCP 协 
议 ) 。 那 么 通信 发 起 方 如 何 知道 哪 台 计 算 机 拥有 哪个 
IP 地 址 ? 可 以 用 电话 、 邮 件 等 互相 通告 一 下 ， 不 过 这 
样 太 低 效 。 于 是 人 们 用 一 串 可 读 性 强 的 字符 《网 址 / 域 
名 ) 来 指 代 某 个 IP 地 址 ， 比 如 www.bing.com， 其 对 应 
着 某 个 IP 地 址 。 为 了 获取 该 域名 对 应 的 IP 地 址 ， 先 将 
该 域名 封装 成 一 条 消息 ， 发 送 给 DNS (Domain Name 
System， 域 名 解析 ) 服务 器 (DNS 服务 器 的 IP 地 址 必 
须 在 本 机 预先 设 定好 ) ，DNS 服 务 器 负责 在 其 内 部 数 
据 库 中 查询 该 网 址 对 应 的 IP 地 址 ， 然 后 通过 网 络 返 回 
给 本 机 。 本 机 程序 就 可 以 将 该 IP 地 址 附加 到 每 个 发 送 
到 谷歌 网 页 服务 器 的 数据 包 上 ， 从 而 被 网 络 路 由 器 路 
由 到 谷歌 的 服务 器 上 。 那 么 为 什么 每 次 打开 谷歌 总 是 
失败 呢 ? 这 是 防火 墙 在 作 崇 ， 防 火 墙 相当 于 网 络 上 的 
过 滤器 ， 设 定 一 些 规则 ， 比 如 凡是 访问 谷歌 服务 器 对 
应 的 人 P 地 址 的 数据 包 ， 一 律 丢弃 。 

每 个 数据 包 除 了 必须 携带 接收 方 的 IP 地 址 之 
外 ， 还 必须 带 有 发 送 方 1P 地 址 ， 否 则 接收 方 无 法 区 
分 这 个 数据 包 到 底 是 哪 台 计 算 机 发 来 的 。 如 图 7-29 所 
示 ，S 表 示 Source (发 送 方 )，DD 表 示 Destination( 接 
收 方 ) 。 

那么 ， 网 络 上 的 路 由 器 到 底 是 怎么 知道 某 个 IP 
地 址 的 数据 包 应 该 路 由 到 哪个 端口 呢 ? 可 以 静态 配 
置 (静态 路 由 表 ) ， 指 定 比 如 到 IP1 的 数据 包 转 发 给 
端口 B。 但 是 网 络 上 的 地 址 数 十 亿 ， 靠 手工 管理 是 不 
现实 的 。 于 是 人 们 发 明了 各 种 动态 路 由 机 制 ( 比 如 
RIP、OSPF、BGP 等 ) ， 让 路 由 器 能 够 动态 检测 、 学 
习 、 抓 取 网 络 上 现 有 的 以 及 新 加 入 的 计算 机 IP 地 址 ， 
并 动态 更 新 自己 的 路 由 表 。 

网 络 层 包 含 网 络 地 址 格式 标准 、 网 络 地 址 的 分 配 
(动态 /静态 ) 、 网 络 所 支持 的 拓扑 结构 、 数 据 包 的 路 
由 (静态 /动态 ) 、 网 址 域名 的 DNS 解析 ， 包 过 滤 等 协 
议和 处 理 模 块 、 设 备 。 上 文 所 述 的 地 址 格式 、 编 制 方 
式 、 路 由 过 程 以 及 对 应 的 程序 处 理 模 块 ， 都 位 于 网 络 
层 。 对 应 的 协议 、 程 序 处 理 模块 ， 被 称 为 网 络 控制 协 
议 。 上 文中 提 到 过 的 传输 控制 协议 ， 负 责 如 何 将 数据 
正确 有 序 传输 到 对 方 ， 而 网 络 控制 协议 负责 的 是 如 何 
找到 并 且 到 达 对 方 、 走 哪 条 路 到 达 对 方 。 网 络 层 或 者 
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图 7-29 ”给 每 个 数据 包 附 上 IP 地 址 标签 


说 网 络 控制 协议 ， 一 般 都 运行 在 Host 端 的 程序 一 侧 ， 
当然 其 不 需要 是 用 户 应 用 程序 ， 而 是 单独 的 程序 ， 就 
像 驱 动 程序 一 样 ， 驻 留 在 Host 主 存 中 发 挥 作 用 。 

另外 ， 将 MSS 切 片 再 次 切 成 MITU 切 片 的 工作 ， 也 
由 网 络 层 程序 负责 。 切 片 要 附 上 IP 包 头 。 当 然 ，IP 包 
头 中 除了 包含 源 和 目的 IP 地 址 之 外 ， 还 有 其 他 用 于 网 
络 控制 的 信息 。 

世界 上 所 有 的 计算 机 是 不 是 都 身 处 一 个 单一 的 
超大 规模 交换 网 络 中 ? 并 非 如 此 。 计 算 机 外 部 网 络 发 
展 初 期 存在 各 种 网 络 ， 这 些 网 络 都 是 各 大 研究 机 构 各 
自 设 计 开发 的 ， 非 常 不 统一 。 如 图 7-30 左 侧 所 示 ， 这 
些 早期 网 络 有 各 种 拓扑 结构 、 各 种 传输 层 、 网 络 层 协 
议 规范 和 数据 包 格 式 。 这 些 用 于 连接 数量 较 少 、 小 
范围 内 的 各 种 计算 机 网 络 被 称 为 局 域 网 ( Local Area 
Network, LAN) 。 

第 一 代 以 太 网 的 速率 为 10Mbit/s 串 行 ， 但 是 其 拓 
扑 结构 采用 的 是 总 线 型 拓扑 ， 所 有 节点 仲裁 获取 使 用 
权 ， 然 后 开始 传送 数据 。 早 期 的 环形 网 络 的 代表 是 
IBM 所 使 用 的 令 牌 环 网 ， 其 利用 特殊 的 令 牌 数据 包 来 
进行 仲裁 ， 保 证 同一 时 刻 只 有 一 个 节点 在 发 送 数 据 ， 
环 上 所 有 计算 机 接力 传递 该 数据 包 ， 数 据 包 到 达 目 的 
地 便 被 目标 计算 机 拿 走 。100Mbit/s 速 率 的 以 太 网 则 
采用 了 交换 式 拓扑 。 那 么 ， 如 何 将 不 同 网 络 中 的 计算 
机 互联 互通 起 来 ? 这 就 需要 一 个 中 介 角 色 ， 从 一 个 网 
络 接收 数据 包 ， 剥 掉 该 网 络 的 包头 ， 附 上 目标 网 络 的 
包头 ， 发 送 到 目标 网 络 。 相 当 于 从 快递 公司 A 物 流 网 
收 到 信件 并 拆 开 ， 再 将 信件 装 到 快递 公司 B 的 信封 中 
通过 后 者 的 物流 网 送 达 目的 地 ， 这 个 过 程 叫 作 在 两 个 
网 络 之 间 进 行 数据 路 由 。 该 中 介 角 色 就 叫 作 网 络 路 由 
器 ， 其 本 质 上 就 是 一 台 计 算 机 ， 同 时 连接 着 两 个 不 
同类 型 的 网 络 IO 控 制 器 ， 从 一 边 收 数据 ， 往 另外 一 
边 发 数据 。 同 理 ， 路 由 器 也 可 以 同时 在 多 个 网 络 之 
间 相 互 路 由 数据 ， 只 需要 增加 对 应 网 络 的 IO 控制 器 


(с) © 
оо ооооо оо 
Ово © © 
© ©©©© © © 

© © © © 
бт ыл. ч 
©©© © © (9 © 


局 域 网 ( Local Area Network ) 


第 7 章 ЕОНИ ЕНИ 


即 可 。 只 不 过 ， 由 于 数据 包 到 达 的 频率 非常 高 ， 早 
期 的 路 由 器 内 部 并 不 是 依靠 当时 的 通用 CPU+ 代 码 来 
收发 数据 的 ， 而 是 采用 专用 硬件 电路 状态 机 来 做 数 
据 包 分 析 和 转发 ，CPU+ 代 码 〈 固 件 ) 只 用 于 管理 工 
作 ， 比 如 接收 外 界 的 命令 配置 、 向 内 部 的 Crossbar 写 
入 路 由 表 、 向 对 应 的 寄存 器 写 入 控制 速率 等 工作 模式 
的 控制 字 等 工作 。 然 而 从 2015 年 开始 ， 业 界 兴起 了 
用 通用 CPU+ 代 码 来 做 数据 包 路 由 的 工作 ， 因 为 当时 
的 CPU 性 能 已 经 比较 强悍 ， 再 加 上 精简 的 代码 ， 其 性 
能 也 是 可 以 接受 的 。 以 至 于 人 们 纷纷 利用 CPU+ 软 件 
来 实现 以 往 由 专用 硬件 电路 完成 的 网 络 控制 任务 ， 
这 种 思路 被 称 为 网 络 功能 虚拟 化 (Network Function 
Virtualization, NFV) 。 

到 了 21 世 纪 初 ， 以 太 网 逐渐 统治 了 局 域 网 ， 成 为 
目前 唯一 的 通用 场景 局 域 网 形态 。 其 他 形式 的 网 络 要 
么 被 淘汰 ， 要 么 被 限定 在 特殊 场景 使 用 ， 比 如 专门 用 
于 连接 存储 IO 控制 器 和 存储 设备 之 间 的 网 络 (Fibre 
Channel、SAS 等 ) 。 既 然 如 此 ， 几 乎 所 有 网 络 都 采用 
以 太 网 ， 那 么 世界 上 为 何 还 存在 路 由 器 ， 难 道 所 有 以 
太 网 交换 机 不 能 连接 成 一 个 大 网 络 么 ? 可 以 ， 但 是 不 
现实 。 因 为 几乎 所 有 类 型 网 络 都 支持 广播 ， 比 如 规定 
某 个 地 址 为 广播 地 址 ， 向 该 地 址 发 送 的 数据 包 ， 交 换 
机 收 到 之 后 会 向 所 有 端口 转发 ， 如 果 大 量 计算 机 接 入 
同一 个 网 络 ， 广 播 流量 可 能 会 让 整个 网 络 瘫痪 交换 
机 上 所 有 端口 的 接收 /发 送 缓冲 区 瞬间 被 这 些 广播 流量 
塞 满 ) 。 因 此 ， 即 便 各 个 子 网 的 类 型 都 相同 ， 这 些 子 
网 也 还 是 要 用 路 由 器 隔离 起 来 。 底 层 广播 流量 到 达 路 
由 器 端口 就 截 停 了 ， 路 由 器 隔离 了 底层 广播 ， 可 以 提 
升 网 络 效率 ， 更 有 利于 管理 。 

先前 每 种 网 络 都 有 自己 的 地 址 格式 ， 比 如 以 太 网 
使 用 MAC 地 址 格式 ， 而 点 对 点 网 络 根本 没有 地 址 这 
一 说 ， 因 为 一 个 点 对 点 网 络 上 只 有 两 个 人 ， 不 需要 指 
定 地 址 ， 发 出 去 的 数据 一 定 被 对 方 收 到 。 现 在 多 个 网 
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络 被 路 由 器 互联 起 来 ， 就 得 统一 地 址 格式 ，IP 地 址 应 
此 而 生 ， 计 算 机 可 以 用 各 种 网 络 接 入 路 由 器 ， 但 是 其 
数据 包 中 必须 携带 了 地址 。 计 算 机 与 路 由 器 之 间 的 网 
络 ， 必 须 采 用 该 网 络 定义 的 地 址 格式 来 通信 。 所 以 数 
据 先 被 贴 上 PP 包头 ， 再 在 外 层 贴 上 所 在 网 络 的 地 址 包 
头 ， 发 送 到 该 网 络 的 交换 机 ， 交 换 机 根据 外 层 地 址 来 
决定 将 数据 发 送 到 哪个 端口 。 拿 以 太 网 来 讲 ， 所 有 发 
送 到 其 他 网 络 的 数据 包 ， 其 MAC 地 址 必须 被 设置 为 与 
本 网 络 连接 的 路 由 器 接口 的 MAC 地 址 ，IP 地 址 被 设置 
为 接收 方 P 地 址 。 与 本 地 网 络 连接 的 路 由 器 俗称 为 网 
关 (Gateway) ， 因 为 所 有 访问 其 他 子 网 的 流量 都 必 
须 经 过 网 关 的 转发 。 那 么 计算 机 如 何 知道 网 关 的 MAC 
地 址 呢 ? 地 址 可 以 人 为 配置 ， 但 是 不 灵活 。 更 好 的 方 
式 是 ， 在 计算 机 上 指定 网 关 的 IP 地 址 ， 为 了 获得 该 IP 
地 址 对 应 的 MAC 地 址 ， 向 本 网 络 发 送 广播 消息 询问 
“ 卫 地 址 为 xx 节点 的 MAC 地 址 是 多 少 ”， 路 由 器 收 到 
之 后 ， 将 自己 的 MAC 地 址 返回 。 这 种 发 现 对 应 IP 地 址 
的 节点 的 MAC 地 址 的 过 程控 制 协议 被 称 为 地 址 解析 协 
议 (Address Resolution Protocol，ARP) 。 

此 外 还 有 因特网 控制 消息 协议 CInternet Control 
Message Protocol，ICMP) ， 其 作用 是 发 出 一 个 数 
据 包 到 对 方 ， 对 方 的 ICMP 协 议 处理 程 序 根据 收 到 的 
包 ， 返回 一 个 应 答 包 。 发 送 方 根据 是 否 在 一 定时 间 内 
接收 到 应 答 包 ， 就 可 以 知道 到 某 个 IP 地 址 的 通信 是否 
正常 。 根 据 应 答 包 中 更 加 细节 的 信息 ， 发 送 方 可 以 获 
知 网 络 上 更 多 详细 信息 。 我 们 经 常 使 用 的 Ping 命 令 程 
序 ， 其 底层 就 是 调用 了 ICMP 协 议 处 理 程序 发 出 对 应 
的 ICMP 包 。 当 然 ，ICMP 需 要 委托 耳 处 理 程序 对 ICMP 
数据 包 进 行 打包 、 切 片 ， 最 后 发 送 。 

关于 IP 地 址 、 路 由 器 等 更 详细 的 机 制 介绍 ， 可 以 
参考 下 面 的 7.3.3 节 。 
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附 上 了 IP 包 头 、TCP 包 头 的 表示 层 信 息 + 最 终 数 
据 的 数据 包 ， 会 被 放 入 网 络 IO 控 制 器 在 Host 端 主 存 中 
的 Send Queue 中 ， 等 待 网络 1/O 控 制 器 取 走 并 发 送 到 外 
部 网 络 链 路 上 ， 最 终 到 达 路 由 器 。 外 部 链 路 有 一 些 规 
则 。 首 先 ， 发 送 的 数据 必须 是 一 帧 一 帧 的 ， 如 同 MSS 
切片 一 样 ， 每 一 帧 不 大 于 对 应 链 路 的 MTU 值 。MTU 
存在 的 原因 上 文中 已 经 介绍 过 。 

由 于 发 送 方 和 接收 方 的 ERDES 电 路 是 连续 发 送 
和 接收 以 太 网 帧 ， 导 线 上 的 信号 就 是 一 连 串 不 间断 的 
1 和 0 比特 流 。 接 收 方 以 太 网 IO 控制 器 不 停 地 将 比特 
流 从 SERDES 收 入 并 放 入 内 部 的 缓冲 区 ， 然 后 由 专用 
的 电路 模块 对 收 到 的 数据 进行 解析 ， 看 看 从 哪里 到 哪 
里 是 一 帧 数据 ， 并 将 这 帧 数据 写 入 Host 端 主 存 的 FIFO 
写 指针 指向 的 缓冲 区 中 。 为 了 让 接收 方 确定 导线 上 
的 信号 从 哪里 到 哪里 是 一 帧 ， 必 须 给 每 个 MTU 切 片 


附 上 1 字 节 的 标识 ， 其 称 为 起 始 帧 〈Start of Frame, 
SoF) 。 电 路 只 要 在 接收 到 的 比特 流 中 搜索 该 字 节 ， 
就 可 以 定 界 一 帧 地 开始 了 。 帧 的 长 度 是 不 固定 的 ， 所 
以 MTU 切 片 还 必须 附 上 描述 帧 长 度 的 信息 。 接 收 方 
电路 定 界 了 一 帧 的 起 始 位 置 之 后 ， 再 通过 读 取 长 度 信 
息 ， 就 可 以 完整 定 界 整个 帧 了 。 至 于 如 何 用 数字 电路 
在 接收 缓冲 区 中 搜索 对 应 的 字 节 ， 无 非 就 是 使 用 并 行 
比较 器 来 实现 ， 这 里 不 再 袭 述 。 

有 个 问题 需要 考虑 ， 程 序 可 以 发 送 任意 数据 ， 那 
么 ， 经 过 MTU 切 片 的 有 效 载荷 数据 中 一 旦 出 现 与 SoF 
相同 的 字 节 怎么 办 ? 这 个 问题 需要 另辟蹊径 来 解决 。 
人 们 采用 的 办 法 是 ， 在 将 数据 发 送 到 线路 之 前 ， 整 个 
MTU 切 片 按照 一 定 算法 进行 重新 编码 ， 比 如 插入 一 
些 bit， 或 者 完全 变 成 另 一 串 bit， 这 种 算法 能 够 保证 
编码 之 后 的 数据 中 不 可 能 出 现 SoF 字 节 。 接 收 方 定 
界 帧 之 后 ， 按 照相 同 算法 解码 ， 复 原 出 之 前 的 原始 
数据 。 

当 发 送 方 没有 数据 帧 要 传递 时 ，I/O 控 制 器 会 自 
动 发 送 特殊 格式 的 Idel 帧 〈 共 10 位 ) ， 接 收 方 接收 到 
Idel 帧 则 不 触发 任何 动作 。 其 次 ， 双 方 设备 加 电 之 
后 ， 链 路 两 端 需 要 发 送 一 些 特殊 的 帧 ， 用 于 相互 通告 
各 自 的 参数 、 状 态 等 信息 ， 最 终 双方 运行 在 相同 的 
参数 下 。 这 些 用 于 链 路 控制 目的 而 发 送 的 帧 ， 被 称 
为 链 路 控制 帧 〈 Data Link Layer Packet，DLLP) 。 
而 上 层 带 有 有 效 载荷 的 帧 ， 则 被 统称 为 事务 层 帧 
(Transaction Layer Packet，TLP) 。 对 于 这 两 种 类 型 
帧 的 称谓 ， 不 同 协议 规范 可 能 有 不 同 的 名 字 。 


帧 和 包 这 两 个 词 本 质 含义 相同 。 但 是 一 般 链 路 
控制 信息 的 包 称 为 帧 ， 而 仅 由 网 络 层 处 理 之 后 的 数 
据 称 为 包 。 但 是 将 帧 说 成 是 包 也 无 伤 大 雅 ， 不 过 没 
有 人 把 网 络 层 的 包 说 成 是 帧 。 


链 路 层 指 的 就 是 ， 帧 头 帧 尾 格式 、 链 路 握手 协商 
等 控制 规则 ， 以 及 对 应 的 帧 格式 协议 。 链 路 层 并 不 关 
心 MTU 切 片 内 部 到 底 是 什么 ， 正 如 网 络 层 也 根本 不 
关心 MSS 切 片 中 到 底 是 什么 。 链 路 层 控制 程序 一 般 都 
运行 在 IO 控制 器 内 部 ， 有 些 是 以 IO 控制 器 上 的 嵌入 
式 CPU+ 代 码 方式 存在 ， 有 些 直接 通过 硬件 电路 状态 
机 方式 存在 。 比 如 对 帧 的 定 界 这 种 操作 ， 由 于 涉及 大 
量 搜索 过 程 ， 必 须 使 用 硬件 并 行 方式 ， 靠 代码 一 点 一 
点 比 对 ， 这 样 速度 太 慢 。 而 一 些 链 路 初始 化 握手 协商 
过 程 ， 一 般 是 靠 软件 来 综合 判定 并 作出 回应 的 。 比 如 
双方 协商 某 个 链 路 速率 ， 这 个 可 以 由 用 户 来 控制 ; 将 
对 应 控制 字 写 入 LO 控制 器 的 控制 寄存 器 中 ， 在 链 路 
协商 过 程 中 根据 控制 字 中 的 信号 决定 通告 对 方 什么 速 
率 ， 这 些 由 软件 来 控制 更 加 灵活 。 


提示 

源 和 目的 MAC 地 址 应 由 发 送 方 的 Host 端 程序 
附 在 MTU 切 片头 部 ， 并 放置 到 缓冲 区 中 等 待 JO 控 
制 器 取 走 。 因 为 只 有 Host 端 程序 知道 某 个 MTU 切 
片 应 该 发 送 给 哪个 MAC 地 址 ，I/O 控 制 器 并 不 知道 
此 事 。 
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IO 控制 器 从 Host 主 存 取 回 生成 好 的 原始 帧 ， 其 
内 部 的 链 路 层 处 理 模块 对 原始 帧 再 附加 一 些 其 他 控 
制 信号 头 部 比如 SoF 等 ， 然 后 重新 编码 ， 并 对 整个 帧 
进行 校 验 ， 将 校 验 码 放 到 帧 尾部 ， 最 终生 成 链 路 帧 ， 
并 将 其 放置 到 后 端 网 络 SERDES 的 发 送 缓冲 区 内 。 最 
终 ，SERDES 将 缓冲 区 中 的 数据 一 位 一 位 传送 出 去 。 
SERDES 根 本 不 管 缓冲 区 内 部 都 是 些 什么 ， 它 持续 
地 发 送 数据 ， 所 以 缓冲 区 内 部 必须 保证 有 足够 的 数 
据 ， 就 算 没 有 数据 要 发 送 ， 也 要 填充 上 Idel 帧 来 喂 饱 
SERDES。 当 然 ， 有 些 网 络 也 采用 诸如 串口 的 方式 进 
行 异 步 传 送 ， 利 用 一 个 信号 下 沿 或 者 一 串 前 导 同 步 
码 ， 通 告 对 方 有 一 帧 数据 要 来 了 ， 对 方 则 启动 信号 采 
样 过 程 。 

外 部 网 络 的 线 缆 有 各 种 形态 ， 比 如 针 形 的 、 
RJ-45 接 头 形 等 。RJ-45 是 最 为 常用 的 以 太 网 物理 接口 
形态 ， 但 是 并 不 意味 着 以 太 网 必须 用 RJ-45 接 口 ， 也 
不 意味 着 RJT-45 接 口上 只 能 用 于 以 太 网 。RS232 串 行 通信 
协议 也 可 以 使 用 RJ-45 接 口 的 网 线 来 承载 信号 。 可 以 
承载 高 速 信号 的 接口 也 可 以 承载 低速 信号 ， 但 是 反之 
则 不 成 立 。 

物理 层 就 是 指 ， 对 数据 重新 编 解 码 、 双 方 时 钟 的 
同步 、 网 络 的 线 绕 规格 、 连 接 器 形态 、 传 输 距 离 、 信 
号 衰减 、 光 电 转换 等 这 些 规范 。 


7.3.1.8 ”传送 层 
用 路 由 器 将 多 个 不 同类 型 网 络 互 联 起 来 形成 更 大 
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范围 的 网 络 。 如 果 网 络 范围 较 小 ， 比 如 不 超过 数 百 米 
距离 ， 其 依然 属于 LAN 范 畴 。 但 是 如 果 身 处 两 个 城市 
之 间 的 计算 机 连接 起 来 的 话 ， 其 就 是 广域网 (Wide 
Area Network, WAN) 。 如 图 7-31 左 侧 所 示 ， 我 们 将 
图 中 的 网 络 分 割 成 两 半 ， 上 半 部 分 在 城市 A， 下 半 部 
分 在 城市 B。 对 于 地 面 传输 ， 不 管 距离 多 远 ， 使 用 光 
纤 都 能 解决 问题 。 我 们 是 不 是 只 需要 用 光纤 (图 中 的 
虚线 ) 将 两 地 的 路 由 器 连接 起 来 就 可 以 了 呢 ? 是 的 。 
但 是 在 早期 ， 光 纤 并 没有 广泛 部 署 到 城市 的 每 个 角 
落 ， 而 电话 线 或 者 有 线 电视 线路 早已 布 满 了 城市 ， 其 
上 已 经 承载 了 电话 和 有 线 电视 信号 。 如 果 路 由 器 发 出 
的 数据 包 数 字 信号 直接 输送 到 线路 上 ， 其 与 电话 电视 
信号 会 相互 干扰 。 要 想 对 这 些 线路 进行 复 用 ， 可 以 将 
路 由 器 发 出 的 数字 信号 调制 到 相 比 电话 /电视 信号 频段 
更 高 的 模拟 信号 载波 上 ， 第 1 章 中 我 们 就 介绍 过 ， 可 
以 使 用 滤波 器 分 解 出 不 同 频段 的 信号 。ADSL 调 制 解 
调 器 (АОЗТ, Modem) 就 是 用 来 做 这 件 事 的 。 我 们 只 
要 在 本 端 和 远 端 安装 一 对 儿 ADSL 调 制 解 调 器 ， 就 可 
以 通过 电话 /电视 同 轴线 缆 同 时 承载 多 路 信号 ， 达 到 信 
号 传输 的 目的 。 后 来 ， 以 太 网 交换 机 被 直接 部 署 到 城 
市 各 处 ， 家 庭 可 以 直接 使 用 以 太 网 线 与 路 由 器 连接 。 
随 着 有 线 电 话 网 逐渐 淡出 ，ADSL 也 逐渐 被 淘汰 了 。 
然而 ， 城 市 中 遍布 各 处 的 路 由 器 ， 都 是 谁 部 署 
的 呢 ? 网 络 运营 商 。 是 免费 使 用 么 ? 当然 不 是 。 用 
户 想 接 入 运营 商 部 署 的 大 网 与 世界 上 所 有 计算 机 通 
信 ， 必 须 按 照 运 营 商 提供 的 方式 接 入 ， 比 如 ADSL、 
EPON/GPON 等 方式 。 这 些 用 于 将 本 地 路 由 器 与 运营 
商 一 侧 路 由 器 连接 起 来 的 设备 ， 被 称 为 接 入 设备 ， 对 
应 的 网 络 〈 比 如 电话 网 、 有 线 电视 网 或 者 以 太 网 ) 被 
称 为 接 入 网 。 而 且 每 个 接 入 点 需要 一 种 认证 、 计 费 手 
段 来 管理 和 监控 。 运 营 商 大 网 中 包含 数 十 万 台 分 布 在 
各 处 的 路 由 器 。 假 设 北京 和 上 海 各 有 一 万 台 路 由 器 ， 
那么 它们 之 间 应 该 怎么 互联 起 来 ? 通过 什么 拓扑 ? 不 
管 采用 什么 拓扑 ， 由 于 每 台 路 由 器 端口 数量 有 限 ， 而 
且 两 地 之 间 的 地 下 光缆 管道 资源 有 限 ， 所 以 光纤 数量 
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是 有 限 的 。 于 是 人 们 想 出 了 一 些 办 法 能 够 将 多 根 光 
纤 的 信号 复 用 到 一 根 光 纤 上 传递 ， 这 就 是 波 分 复 用 
(Wavelength Division Multiplexing，WDM) 技术 。 
光 是 一 种 模拟 信号 ， 我 们 在 第 1 章 中 介绍 过 模拟 信号 
相关 知识 ， 多 路 不 同 频率 的 模拟 信号 可 以 受 加 并 且 在 
同一 介质 上 传输 ， 到 达 目 的 端 可 以 用 对 应 的 滤波 装置 
还 原 出 每 一 路 信号 。 太 阳光 中 的 多 种 颜 /频率 色 成 分 可 
以 通过 三 棱镜 或 者 光栅 被 分 解 开 来 。 道 理 是 一 样 的 。 
WDM 技 术 将 多 路 不 同 波长 的 光 从 多 根 光纤 中 射 入 一 
根 光 纤 ， 目 的 端的 WDM 设 备 再 利用 精密 光栅 将 其 分 
解 、 偏 转 、 射 入 各 自 的 光纤 。 但 是 由 于 技术 限制 ， 
目前 的 WDM 设 备 每 根 光纤 最 多 复 用 80 路 光 ， 正 因 如 
此 ， 其 成 本 自然 很 高 ， 只 有 少数 企业 用 户 才 会 购买 网 
络 运 营 商 提供 的 WDM 服 务 。 

与 WDM 相 比 ， 另 一 种 成 本 更 低 的 方式 是 ， 用 某 
种 特殊 设备 先 将 多 路 用 户 侧 光 纤 / 导 线 上 的 数据 帧 通过 
对 应 的 网 络 I/O 控 制 器 接收 进来 ， 放 入 内 部 缓冲 区 ， 
然后 将 所 有 这 些 大 大 小 小 的 数据 帧 打上 对 应 的 标签 ， 
比如 这 是 用 户 A 的 ， 那 是 用 户 B 的 ， 然 后 再 将 它们 从 
一 根 光 纤 上 传递 到 远 端 ， 接 收 方 的 传输 设备 收 到 数据 
之 后 ， 将 数据 封包 解 开 ， 根 据 不 同 的 标签 标识 转发 给 
对 应 路 由 器 ， 从 而 实现 了 复 用 。 与 WDM 目 前 的 80 路 
相 比 ， 上 述 这 种 方式 可 以 复 用 更 多 路 。 可 以 明显 看 
到 ， 这 种 复 用 方式 下 ， 数 据 帧 必须 排队 从 出 口 发 送出 
去 。 这 一 排队 ， 就 会 产生 时 延 (参考 第 4 章 流水 线 和 
队列 内 容 ) ， 如 果 用 户 侧 发 送 的 数据 帧 量 非常 大 ， 还 
会 导致 队列 被 压 满 、 阻 塞 。 正 因 如 此 ， 这 种 复 用 方式 
成 本 比 WDM 要 低 不 少 。 

利用 WDM 来 复 用 ， 相 比 光 纤 直 连 两 端 设备 场 
景 ， 并 不 会 增加 时 延 。 不 管 复 用 多 少 路 ， 这 些 光 信号 
都 是 同时 在 介质 中 传递 的 ， 不 会 排队 。 这 种 方式 ， 我 
们 称 为 空 分 复 用 ， 也 就 是 多 路 信号 在 多 个 毫 无 干扰 牵 
连 的 介质 〈 空 间 ) 中 齐头并进 。 当 然 ， 对 于 模拟 信 
号 ， 多 路 模拟 信号 可 以 在 同一 个 介质 内 齐头并进 传 
输 ， 也 叫 空 分 复 用 。 上 述 第 二 种 复 用 方式 ， 我 们 称 为 
时 分 复 用 。 同 一 时 刻 ， 同 一 根 光 纤 的 某 个 截面 上 只 有 
一 路 信号 在 传递 ， 多 路 用 户 的 所 有 数据 帧 是 先后 循环 
被 发 送 到 光纤 上 的 。 

两 者 能 否 结合 起 来 ? 我 们 先 将 多 路 信号 时 分 复 
用 ， 对 新 来 的 一 批 信 号 时 分 复 用 ， 然 后 将 这 两 批 信 号 
空 分 复 用 ? 没 错 ， 网 络 运营 商都 是 这 么 干 的 ， 只 要 能 
省 下 长 距离 传输 的 光纤 数量 ， 最 终 成 本 就 能 降低 。 

时 分 复 用 要 求 传输 设备 先 将 用 户 侧 的 数据 信号 
收入 进来 ， 那 么 这 就 要 求 接 入 设备 面向 用 户 侧 的 接口 
和 协议 必须 与 用 户 所 使 用 的 网 络 接口 一 致 ， 比 如 ， 都 
是 以 太 网 。 接 入 设备 采用 与 用 户 侧 相同 的 网 络 IO 控 
制 器 来 从 链 路 上 收入 数据 ， 因 为 只 有 对 应 的 IO 控制 
器 才能 够 从 线路 上 的 连 串 比 特 流 中 定 界 出 每 一 帧 。 所 
以 ， 你 如 果 自 创 了 一 个 链 路 层 格式 ， 那 就 无 法 享用 
时 分 复 用 了 ， 必 须 得 用 高 成 本 的 WDM (或 者 OTN 设 


ж) 来 满足 。 所 以 ， 你 即便 是 有 自己 的 私有 协议 ， 也 
尽量 不 要 改变 底层 格式 ， 完 全 可 以 将 其 封装 在 以 太 网 
帧 内 部 ， 借 用 以 太 网 将 你 要 表达 的 信息 传递 给 对 方 。 
将 一 种 协议 打包 在 另 一 种 协议 中 传递 的 方式 ， 被 称 为 
隧道 (Tunnel) 。 一般 来 讲 ， 网 络 运营 商 的 时 分 复 用 
设备 都 会 支持 以 太 网 和 FC (Frbre Channel) 网 ， 因 为 
这 两 种 网 络 在 目前 企业 数据 中 最 为 常用 。 

时 分 复 用 传输 方式 下 ， 又 有 多 种 不 同 的 具体 的 打 
包 方式 和 规范 、 不 同 的 硬件 传输 速率 和 编码 规范 又 有 
不 同 。 比 如 接 入 网 使 用 的 EPON/GPON， 城 域 网 /骨干 
网 使 用 的 PDH、SDH 以 及 OTN (当前 主流 ) 的 规范 都 
不 同 ， 它 们 在 底层 也 都 使 用 了 DWDM 空 分 复 用 。 传 
统 的 基于 交换 机 的 以 太 网 形态 本 身 也 是 时 分 复 用 。 比 
如 在 一 个 以 太 网 交换 机 上 ， 多 个 连接 着 计算 机 的 端口 
会 将 数据 包 统一 发 向 连接 着 网 关 的 接口 ， 在 网 关上 行 
接口 上 的 数据 就 是 时 分 复 用 排队 传送 的 。 既 然 如 此 ， 
将 多 个 不 同 以 太 网 的 流量 复 用 到 同一 个 以 太 网 接口 
上 ， 理 论 上 也 是 可 以 的 ， 只 要 把 其 他 子 网 的 以 太 网 帧 
当成 有 效 载荷 并 加 上 帧 头 帧 尾 就 可 以 了 。 其 实 ， 任 何 
网 络 输出 的 数据 都 是 一 堆 带 有 某 种 帧 格式 的 比特 流 ， 
大 家 底层 采用 的 SERDES 电 路 甚至 都 有 可 能 是 同一 个 
型 号 。 以 太 网 不 适合 作为 多 子 网 流量 复 用 传输 的 原因 
还 是 在 于 ， 其 网 络 管理 方面 的 特性 满足 不 了 大 范围 传 
输 网 的 要 求 。 以 太 网 帧 头 中 并 没有 定义 更 加 精细 区 分 
不 同 子 网 流量 的 标识 ， 也 没有 强 有 力 的 数据 校 验 和 重 
传 机 制 ， 存 在 丢 包 问题 (依赖 传输 层 协 议 做 丢 包 检测 
和 重 传 ) ， 且 无 法 提供 带宽 保证 、 优 先 级 保证 等 QoS 
(Quality of Service) 机 制 ， 其 广播 机 制 容易 导致 处 
在 同一 以 太 网 内 部 的 多 个 节点 相互 影响 ， 不 具备 隔离 
性 。 所 以 总 体 来 说 ， 以 太 网 无 法 满足 网 络 运营 商 的 运 
营 需求 。 

WDM 可 以 承载 任何 链 路 层 协议 。 假 设 你 自 创 了 
一 套 链 路 层 帧 格式 和 交互 方式 ， 并 将 信号 通过 光电 转 
换 器 转 成 光 信号 ， 然 后 接 入 WDM (首先 需要 将 光 信 
号 转换 为 符合 WDM 波 长 要 求 的 波段 ， 有 对 应 的 前 置 
波长 转换 设备 ) 。WDM 并 不 关心 这 路 光波 被 调制 后 
是 什么 样 的 信号 。 对 于 WDM 来 讲 ， 它 感受 到 的 就 是 
某 种 频率 的 波 在 不 断 震荡 ， 其 可 能 忽 明 忽 暗 ( 振 幅 调 
制 ) ， 可 能 相位 忽 远 忽 近 〈 相 位 调制 ) ， 可 能 颜色 不 
断 变换 〈 频 率 调制 ) ， 或 者 这 三 者 同时 兼 具 〈 混 合 调 
制 ) ，WDM 只 感受 到 模拟 信号 层面 。 而 对 于 时 分 复 
用 技术 ， 对 应 设备 必须 感受 到 bit 这 一 层 信息 ， 所 以 
其 需要 感受 到 数字 信号 而 非 模拟 信号 。 所 以 如 果 使 用 
了 ADSL 作 为 接 入 线路 ， 在 信号 上 到 时 分 复 用 设备 之 
前 ， 还 需要 将 模拟 信号 解 调 成 数字 信号 ， 然 后 再 被 时 
分 复 用 设备 打包 发 送 到 上 行 链 路 。 

一 般 来 讲 ， 全 国 各 大 城市 之 间 的 主干 传输 设备 
形成 的 传输 网 络 被 称 为 骨干 网 。 每 个 城市 内 部 各 个 区 
之 间 的 传输 设备 形成 了 城 域 网 ， 其 带宽 相 比 骨干 网 要 
低 一 些 。 城 域 网 、 骨 干 网 统称 为 传输 网 。 目 前 主流 


的 城 域 网 和 骨干 网 传输 方式 为 时 分 复 用 的 光 传输 网 
络 (Optical Transport Network, OTN) 和 空 分 复 用 的 
WDM， 在 OTN 之 前 ， 则 是 SDH/PDH 等 。 而 ADSL、 
GPON/EPON、E1、T1 等 用 于 将 用 户 数 据 收集 并 载 入 
传输 网 传输 的 所 谓 “ 最 后 一 公里 ”的 网 络 ， 被 称 为 接 
入 网 。 

在 传输 网 上 为 某 对 儿 源 和 目的 流量 保证 一 定 带 
宽 ， 这 种 方式 被 称 为 专线 。 由 于 传输 网 承载 了 所 有 
通信 流量 ， 包 括 有 线 电视 、 座 机 手机 、 以 太 网 络 、IP 
网 络 等 ， 如 果 不 对 对 应 的 流量 进行 隔离 、 限 速 、 带 宽 
保障 等 处 理 ， 那 么 这 个 网 络 将 一 片 混乱 ， 随 时 瘫痪 。 
每 个 传输 设备 上 都 可 以 做 QoS 管理 ， 将 对 应 标签 的 数 
据 包 放置 到 某 个 独立 缓冲 区 ， 或 者 利用 指针 队列 来 
追踪 ， 然 后 按照 一 定 的 策略 和 顺序 将 不 同 标签 的 数 
据 包 发 送 到 上 行 接口 的 缓冲 区 中 ， 在 这 些 算法 中 ， 
就 可 以 实现 各 种 QoS 功 能 。 这 与 之 前 章节 中 介绍 过 的 
Virtual Channel 的 思想 是 一 样 的 。 实 际 上 ， 在 传输 网 设 
备 领域 ， 对 应 的 名 词 也 叫 虚 通道 (Virtual Channel, 
VC) 。 比 如 采用 El 专线 方 式 接 入 的 流量 ， 被 统一 映 
射 到 OTN 的 VC12 号 管道 中 ， 当 然 ，VC12 管 道 还 被 细 
分 了 更 多 子 管道 。 

传输 网 是 位 于 路 由 器 、 交 换 机 等 下 层 的 一 张 专 
门 用 于 传输 各 类 信和 号 的 底层 网 络 ， 移 动 通 信 基 站 也 
是 通过 传输 网 来 传输 电话 、 短 信 、 数 据 等 业务 的 。 
这 相当 于 前 文中 介绍 过 的 ， 在 计算 机 IO 网 络 中 ， 数 
据 可 以 先 从 SAS/SCSI 等 网 络 进 入 SAS/SCSI IO 控制 
器 ， 再 从 IO 控制 器 进入 PCIE 网 络 ， 再 从 PCIE ГО 
制 器 进入 前 端 访 存 网 络 ， 最 后 进入 主 存 。PCIE 相 当 
于 骨干 网 ， 不 管 是 以 太 网 、SAS 还 是 SCSI， 其 数据 包 
统一 被 打包 成 PCIE 格 式 在 PCIE 网 络 上 传输 ; 而 SAS/ 
FC/SCSI 以 太 网 相 比 之 下 就 是 接 入 网 ， 直 接 接 入 硬盘 
(通过 SAS/FC/SCSI) 或 者 接 入 整 台 计 算 机 (通过 以 
太 网 ) 。 传 输 网 这 个 角色 在 OSI 模 型 中 其 实处 于 物理 
层 之 下 ， 相 当 于 第 0 层 ， 其 会 将 上 层 发 送 的 任何 信号 
都 打包 传递 到 对 方 ， 这 样 ， 通 信 双 方 根本 感觉 不 到 传 
输 网 的 存在 。OSI 七 层 模型 其 实 并 不 包含 该 层 ， 因 为 
传输 网 内 部 又 有 自己 的 OSI 七 层 ， 用 一 个 OSI 去 承载 另 
一 个 OSI。 上 层 的 网 络 相对 于 底层 的 传输 网 就 属于 用 
PAT. 

当然 ， 跨 越 地 理 位 置 非常 远 的 传送 才 有 可 能 借用 
传输 网 ， 如 果 距 离 很 近 ， 而 且 有 条 件 〈 比 如 一 个 园区 
内 ) 用 光纤 来 直 连 ， 信 号 传送 就 不 需要 经 过 传输 网 转 
手 。 关 于 计算 机 网 络 的 更 多 细节 就 不 展开 了 。 为 了 区 
别 TCP 等 传输 保障 层 ， 底 层 传输 网 这 一 层 暂且 称 为 传 
送 层 吧 。 


7.3.1.9 小 结 


应 用 程序 生成 带 有 表示 层 信息 的 数据 ， 调 用 
Host 端 传输 层 控 制 协议 程序 提供 的 API 接 口 ， 告 诉 
传输 控制 程序 要 发 送 的 数据 指针 、 端 口号 等 信息 ， 
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将 这 些 数据 交 给 后 者 处 理 。 传 输 层 控制 协议 程序 对 
这 些 数据 进行 MSS 切 片 ， 并 附加 以 对 应 的 序号 、 端 
口号 等 信息 ， 调 用 网 络 控制 协议 提供 的 接口 ， 将 数 
据 包 交 由 网 络 控制 协议 处 理 。 后 者 根据 底层 链 路 的 
MTU， 将 MSS 切 片 二 次 切片 ， 并 附加 以 对 应 的 包 
头 内 容 ， 最 后 附 上 源 和 目的 网 络 地 址 ， 以 及 本 地 网 
络 的 局 部 地 址 〈 比 如 用 以 太 网 的 话 ， 那 就 是 MAC 
地 址 ) ， 生 成 原始 帧 ， 并 调用 网 络 I/O 控 制 器 驱动 
程序 提供 的 API 接 口 。 网 络 I/O 控 制 器 驱动 程序 将 原 
始 帧 复制 到 发 送 缓冲 区 中 ， 并 通知 IO 控制 器 。IO 
控制 器 将 原始 帧 取 入 自己 的 缓冲 区 ， 并 对 其 进行 最 
终 处 理 ， 生 成 链 路 帧 ， 通 过 物理 接口 发 送 到 网 络 线 
缆 上 。 

本 地 网 络 交换 设备 收 到 该 链 路 帧 ， 根 据 目标 MAC 
地 址 将 该 帧 交换 到 对 应 端口 。 该 端口 后 面 的 计算 机 就 
可 以 收 到 该 帧 了 。 网 络 IO 控 制 器 收 数据 到 缓冲 区 的 
过 程 前 文 已 经 描述 ， 这 里 不 再 袭 述 。 如 果 接收 方 是 计 
算 机 而 不 是 路 由 器 ， 那 么 该 计算 机 中 的 他 处 理 程序 会 
从 缓冲 区 中 将 数据 拿 走 并 做 分 析 ， 其 首先 将 MTU 切 
片 根据 包头 中 的 偏 移 量 、 标 识 等 内 容重 新 组 合成 MSS 
包 ， 并 调用 TCP 处 理 程序 的 函数 做 后 续 处 理 。TCP 处 
理 程序 根据 传输 控制 包头 内 的 序号 等 信息 将 数据 包 重 
新 按 序 排列 ， 并 根据 包头 中 端口 号 的 信息 ， 决 定 放 入 
哪个 应 用 程序 的 缓冲 区 。 应 用 程序 从 该 缓冲 区 内 将 数 
据 不 断 取 走 。 后 续 的 处 理 就 是 应 用 程序 根据 有 效 载荷 
数据 中 的 表示 层 信息 来 提取 最 终 的 含义 ， 并 做 分 析 、 
计算 和 输出 。 

当然 ， 并 不 一 定 所 有 数据 都 是 由 TCP 协 议 栈 下 发 
的 。 与 TCP 协 议 同 时 存在 的 还 有 UDP 协议 、ICMP 协 
议 等 等 多 种 协议 ， 它 们 都 可 以 委托 IP 协 议 栈 打包 数据 
并 发 送 。 这 些 协 议 都 有 自己 的 格式 ， 当 然 ，TCP 协 议 
在 这 些 成 员 中 是 最 复杂 的 一 个 。 那 么 ， 卫 协议 处 理 程 
序 如 何 区 分 接收 到 的 数据 包 应 该 传 给 哪个 协议 栈 来 处 
理 ? 所 以 IP 包 头 中 应 该 含有 “该 数据 包 是 哪个 上 层 协 
议 栈 发 出 的 ”区 分 标识 ， 或 者 说 协议 号 。 

另外 ，ARP 协 议 其 实 运行 在 了 协议 下 层 ， 因 为 通 
信 双 方 都 还 不 知道 对 方 的 局 部 网 络 地 址 之 前 ， 需 要 依 
靠 ARP 协 议 ， 而 ARP 协 议 本 身 并 不 依赖 于 IP 协 议 ， 它 
不 会 委托 IP 协 议 去 做 什么 ， 只 是 在 协助 IP 协 议 。 那 么 
如 何 区 分 某 个 以 太 网 帧 是 应 该 给 IP 协 议 处 理 模块 还 是 
ARP 协 议 处 理 模 块 来 处 理 呢 ? 以 太 网 帧 头 部 也 需要 有 
个 协议 号 标识 用 来 区 分 。 

图 7-32 所 示 为 各 种 利用 以 太 网 来 传输 的 协议 ， 
可 以 看 到 除了 IP 协 议 之 外 ， 还 有 其 他 协议 ， 而 且 还 
可 以 手动 加 载 〈 点 击 图 中 的 “安装 ”按钮 ) 其 他 
协议 。 

大 家 可 以 看 到 ， 到 此 有 太 多 的 区 分 标识 存在 了 ， 
因为 网 络 上 有 多 台 计算 机 ， 一 台 计算 机 内 部 又 有 多 
个 协议 处 理 模块 ，TCP 协 议 处 理 模块 上 方 又 有 多 个 应 
用 在 同时 收发 数据 。 如 果 按 接收 端 处 理 顺序 排序 的 话 
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Ж: 标识 某 个 计算 机 的 IP 地 址 、 标 识 MTU 切 片 的 标 
识 、 以 太 网 帧 头 内 的 协议 号 标识 、IP 包 头 内 的 协议 标 
识 号 、TCP 协 议 端口 号 标识 。 


连 按时 使 用 
Г Intel (R) 82579LM Gigabit Network Connection 
REO... 


此 连接 使 用 下 列 顺 目 ©): 

м s Бау 
м 455 数据 包 计划 程序 

М Дн гозо 网 络 的 文件 和 打印 机 共享 


图 7-32 各 种 利用 以 太 网 传输 的 协议 


如 果 该 端口 后 面 为 网 关 设 备 ， 则 该 设备 从 该 入 
端口 收 到 该 帧 ， 检 测 帧 内 的 全 局 网 络 地 址 (比如 下 地 
址 ) ， 并 决定 从 哪个 出 端口 转发 ， 遂 将 该 帧 的 局 部 网 
络 源 地 址 〈 比 如 MAC 地 址 ) 替换 为 自己 的 ， 将 局 部 网 
络 目 的 MAC 地 址 替换 为 出 端口 所 连接 的 那个 局 部 网 
络 中 下 一 跳 路 由 器 的 MAC 地 址 ， 从 而 将 该 数据 帧 转 
发 给 下 一 个 路 由 器 。 以 此 类 推 ， 一 直到 数据 帧 抵达 
最 终 目的 为 止 。 路 由 器 转发 数据 包 过 程 中 ， 源 和 目 
的 IP 地 址 不 变 ， 局 部 网 络 地 址 比如 MAC 地 址 则 不 断 
变化 。 

运行 在 Host 端 的 传输 控制 协议 和 网 络 控制 协议 ， 
被 统称 为 网 络 协议 栈 。 所 谓 栈 ， 就 是 指 一 层 一 层 的 模 
块 。TCP 位 于 应 用 程序 下 方 ，IP 位 于 TCP 下 方 。 数 据 
一 层 层 地 从 上 往 下 流动 、 处 理 ， 一 层 层 地 转手 ， 并 被 
附 上 对 应 的 传输 、 网 络 、 链 路 控制 信息 包头 ， 到 达 目 
的 地 反方 向 转手 ， 一 层 层 剥 开 去 掉包 头 ， 最 终 露 出 有 
效 载荷 。 这 就 是 所 谓 协 议 栈 ， 或 者 说 处 理 层 次 。 目 前 
最 为 常用 的 传输 层 和 网 络 层 协 议 栈 是 TCP/IP 协 议 栈 、 
TCP/UDP 控 制 传输 层 ， 以 及 ARP/ICMP/IP 控 制 网 络 
层 。 这 些 协 议 被 统称 为 TCP/IP 协 议 栈 ， 它 包含 了 TCP/ 
UDP/ARP/ICMP/IP 协 议 栈 。 

整个 网 络 收发 数据 的 过 程 与 寄 送 快递 的 过 程 有 
很 多 雷同 ， 这 也 正 是 OSI 这 个 框架 的 通用 之 处 。 只 要 
是 通信 ， 就 逃 不 开 这 个 模型 中 描述 的 七 个 层次 。 不 管 
是 连接 多 台 计 算 机 的 外 部 网 络 ， 还 是 一 台 计 算 机 内 用 
于 连接 多 个 部 件 的 内 部 网 络 ， 它 们 在 本 质 上 都 是 类 似 
的 ， 只 是 其 传递 的 内 容 、 数 据 包 格式 、 传 输 控 制 方 
式 、 协 议 栈 运行 的 位 置 以 及 速率 不 同 。 

图 7-33 所 示 为 应 用 数据 被 发 送 到 网 络 的 流程 示 
意图 。 为 了 给 应 用 程序 一 个 更 加 统一 、 简 洁 的 API 接 


口 ， 人 们 将 底层 这 些 协议 栈 提供 的 各 种 接口 函数 封 
装 起 来 形成 一 层 接口 函数 ， 人 们 称 之 为 Socket〈 套 接 
字 ) 。Socket 本 意 为 插口 、 插 座 的 意思 ， 其 含义 是 
应 用 只 需要 将 对 应 的 插头 插 到 对 应 插 孔 上 ， 就 可 以 
与 网 络 联通 了 ， 即 Socket 非 常 统一 、 便 捷 。 应 用 程 
序 不 需要 去 理解 底层 网 络 的 实现 原理 ， 只 需要 调用 
诸如 socket0、bind0、1listen0、connectO、acceptO、 
send(), зепа!о(), гесу(). recvfrom(), с1озе()„ 
shutdown() 等 函数 即 可 。 比 如 调用 connect() 函 数 之 
后 ， 应 用 程序 底层 会 自动 按照 底层 网 络 对 应 的 握手 方 
式 ， 发 出 对 应 格式 的 打招呼 数据 包 ， 这 完全 不 需要 应 
用 程序 来 操心 。 接 收 方 则 调用 listen0 和 acceptO 来 获取 
这 个 打招呼 消息 ， 并 决定 是 接受 还 是 拒绝 这 次 会 话 。 

网 络 系统 的 错综复杂 ， 各 种 名 词 协议 、 层 登 菊 套 
的 关系 ， 会 让 人 了 眼花 练 乱 摸 不 着 头脑 。 看 到 这 里 可 能 
大 家 依然 有 些 迷 茫 ， 这 是 正常 的 。 随 着 本 书 内 容 的 行 
进 ， 你 会 越发 深刻 体会 到 ， 计 算 机 的 本 质 其 实 也 是 用 
网 络 将 运算 器 和 存储 器 互联 起 来 ， 网 络 无 处 不 在 。 随 
着 经 验 不 断 积累 ， 你 定 会 在 某 个 时 刻 茅 塞 顿 开 ， 思 维 
一 马 平 川 。 


7.3.2 底层 信号 处 理 系统 


如 果 你 认为 物理 层 无 非 就 是 用 一 根 导线 把 发 送 
和 接收 端的 触 点 连接 起 来 ， 高 电压 传 1， 低 电压 传 0， 
那 就 大 错 特 错 了 。 物 理 层 自身 也 是 个 非常 复杂 的 层 
次 ， 其 自身 甚至 又 分 了 多 层 ， 需 要 对 导线 上 的 信号 进 
行 多 个 步骤 的 处 理 。 本 节 就 介绍 一 下 底层 的 信号 处 理 
系统 。 


7.3.2.1 AC 耦 合 电容 及 N/Mbit 编 码 


如 图 7-34 所 示 ， 虚 线 框 中 有 两 个 器 件 ， 它 们 分 别 
为 发 送 方 和 接收 方 。 如 图 中 左 侧 部 分 所 示 ， 两 个 器 件 
的 基准 电压 相同 ， 都 为 2 V， 如 果 要 表示 二 进 制 1， 则 
发 送 方 将 电压 提升 2 V 到 4 V， 表 示 0 则 电压 降低 2 V 到 
0V。4V-0V=4V， 发 送 方 的 电压 摆动 范围 为 4V。 我 
们 把 发 送 或 者 接收 方 电压 的 摆动 范围 称 为 摆 幅 ， 将 2V 
的 基准 电压 称 为 中 心 工作 点 电压 。 这 样 ， 由 于 接收 方 
的 中 心 电 压 也 为 2 V (或 者 说 接收 方 和 发 送 方 共 地 ， 
也 就 是 连接 到 相同 电位 的 负极 上 ) ， 所 以 电路 如 果 探 
测 到 电阻 两 端 电压 变 为 2 V， 那 就 说 明 发 送 方 将 电压 
提升 到 了 4 V， 证 明 发 送 方 发 送 了 二 进 制 1; 如 果 接 收 
方 探 测 到 电阻 两 端 电 压 变 为 -2 V， 那 证 明 发 送 方 发 送 
了 0V 电 压 ， 与 本 地 中 心 电 压 相 减 后 为 -2 V， 则 说 明 发 
送 了 二 进 制 0。 但 是 对 于 图 中 右 侧 所 示 的 情况 ， 就 完 
全 乱 套 了 。 假 设 发 送 方 的 中 心 工作 电压 为 6V， 则 发 
送 方 不 需要 改变 电压 ， 接 收 方 就 已 经 感受 到 了 二 进 制 
1， 即 便 发 送 方 将 电压 变 为 4 V 欲 表示 二 进 制 0， 那 么 
接收 方 依然 会 认为 是 二 进 制 1， 接 收 方 会 认为 发 送 方 
永远 都 在 发 送 二 进 制 1。 实 际 中 ， 不 同 设备 的 工作 电 
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压 都 有 些 差 别 ， 因 此 直 连 一 根 导线 是 行 不 通 的 。 另 外 
可 以 看 到 ， 线 路 中 会 有 持续 的 电流 通过 ， 功 耗 会 大 大 
增加 。 

为 此 ， 人 们 在 导线 中 间 串 联 一 个 电容 来 解决 这 
个 问题 ， 如 图 7-35 所 示 。 将 电容 加 入 导线 后 ， 初 始 时 
电容 会 被 充电 ， 充 电 结束 之 后 ， 电 容 自 身 产生 压 降 
为 4 V。 在 这 个 基础 上 ， 如 果 发 送 方 将 电压 抬升 到 8 V 
和 欲 发 送 二 进 制 1， 如 果 发 送 方 电压 抬升 的 速度 足够 组 
慢 ， 那 么 电容 将 跟随 着 这 个 逐渐 抬升 的 电压 一 起 同步 
充电 。 随 着 更 多 的 电荷 充 入 电容 ， 电 容 两 端的 压 差 也 
逐渐 增加 ， 一 直达 到 压 差 为 6 V 为 止 ， 不 再 充电 。 此 
时 ， 接 收 方 一 侧 导线 上 的 电位 与 中 心 电 压 一 致 。 既 然 
如 此 ， 不 管 发 送 方 发 送 什么 电压 ， 这 个 讨厌 的 电容 都 
会 充电 ， 提 升 自己 内 部 的 压 差 ， 抵 消 发 送 方 的 电位 ， 
导致 接收 方 电位 永远 与 接收 方 中 心 电压 一 致 。 这 样 接 
收 方 岂 不 是 无 法 接收 到 信号 了 么 ? 这 电容 存在 的 意义 
到 底 是 什么 ? 

电容 这 个 兄弟 有 个 特点 ， 像 冬瓜 哥 一 样 ， 那 就 
是 反应 慢 。 电 容 需 要 吸纳 足够 多 的 电荷 ， 其 内 部 压 差 
才能 上 升 到 目标 值 ， 正 如 同 冬瓜 哥 需 要 吸纳 足够 的 知 
识 ， 思 考 酝酿 足够 长 时 间 ， 才 能 够 写 出 那么 一 小 段 的 
内 容 。 如 图 7-36 所 示 ， 如 果 发 送 方 足够 快 地 将 电压 抬 
升 到 8 V， 那 么 电容 开始 逐渐 充电 ， 由 于 充电 电流 有 
限 被 电阻 限制 住 了 ) ， 再 加 上 电容 可 容纳 相当 量 的 
电荷 ， 那 么 ， 电 阻 R 越 大 〈 充 电流 越 小 ) ， 电 容量 C 


越 大 〈 可 容纳 电荷 量 越 多 ) ， 其 内 部 压 差 抬升 的 也 就 
越 缓慢 。 所 以 ， 一 开始 的 瞬间 ， 电 容 的 压 差 仍 保持 4 
V。 那 么 ， 发 送 方 的 8 V 电 位 ， 经 过 4 V 的 压 降 ， 到 达 
了 接收 方 ， 电 位 变 成 4 V， 接 收 方 感受 到 电阻 两 端 电 
位 差 为 2 V， 也 就 感受 到 了 二 进 制 1。 也 就 是 说 ， 在 发 
送 方 电压 改变 的 一 瞬间 ， 发 送 方 的 电压 相 比 之 前 变化 
了 多 少 ， 那 么 接收 方 电阻 两 端的 电压 也 会 随 之 变化 多 
少 ， 在 这 一 瞬间 ， 我 们 可 以 认为 发 送 方 的 信号 被 成 功 
透 传 到 了 接收 方 。 

然后 呢 ? 电容 不 断 被 充电 ， 如 果 RXC 足 够 大 ， 
那么 一 时 半 会 电容 两 端 压 差 也 提升 不 了 多 少 ， 接 收 方 
感受 到 的 电阻 两 端的 电压 也 会 在 相当 一 段 时 间 内 维持 
在 2V。 接 收 方 如 果 在 这 个 宝贵 的 黄金 时 间 段 内 ， 将 该 
信号 成 功 采 样 〈 锁 存 器 锁 住 ) ， 那 就 成 功 接收 到 了 信 
号 。 所 以 发 送 方 和 接收 方 的 电路 运行 时 钟 频率 需要 匹 
配 起 来 。 当 发 送 方 要 传递 二 进 制 0 的 时 候 ， 发 送 方 会 
降低 电压 ， 电 容 放电 来 抵抗 外 界 电压 的 变化 。 同 理 ， 
电容 放电 也 需要 时 间 ， 所 以 这 个 降低 的 信号 也 会 被 接 
收 方 及 时 感受 到 。 

这 就 是 所 谓 的 “高 通 ”， 只 要 发 送 方 的 电压 变化 
频率 足够 高 〈 变 化 足够 快 ) ， 趁 着 电容 这 老兄 充 能 到 
足够 抵消 你 的 电压 之 前 ， 接 收 方 就 能 够 感受 到 发 送 方 
的 电位 值 〈《 信 号 通过 了 电容 ) ， 只 是 这 个 电位 值 会 被 
电容 内 部 不 断 增加 的 压 差 抵 消 得 越 来 越 弱 ， 最 后 恢复 
原状 。 
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7-35 利用 串联 电容 来 传输 信号 


第 7 章 计算 机 /0 子 系统 区 于 时 于 


注意 ， 接 收 方 必须 探测 电阻 两 端的 电位 差 ， 而 不 是 去 探测 电容 两 端的 
电位 差 。 这 很 不 同 ! 如 果 是 探测 电容 两 端的 电位 差 ， 则 电路 会 体现 出 “ 低 
通 ” 特 性 ， 也 即 频率 越 低 的 信号 反而 会 被 探测 到 。 这 在 第 1 章 中 已 经 介绍 
过 了 。 


而 如 果 发 送 方 频率 过 低 ， 怎 么 办 呢 ? 那 就 没有 办 法 抵抗 电容 压 差 提升 
的 速度 ， 发 送 方 信号 的 振幅 会 被 电容 抵消 列 尽 ， 这 也 就 是 所 谓 电 容 将 低频 
信号 过 滤 掉 了 。 所 以 ， 人 们 需要 根据 发 送 方 的 信号 频率 ， 调 节 RC 值 ， 让 
RC 电 路 能 够 尽 可 能 慢 地 抵抗 发 送 方 信号 。 图 7-37 描 述 了 电容 内 部 压 差 对 
外 部 电压 的 抵消 规律 ， 红 色 线段 表示 原始 信号 的 振幅 随时 间 的 变化 ， 蓝 色 
线段 则 表示 电容 内 部 压 差 随 时 间 的 变化 〈 充 电 和 放电 ) ， 三 个 图 中 蓝 色 曲 
线 的 斜率 相同 〈 取 自 同一 个 完整 曲线 上 的 一 小 段 ， 由 于 冬瓜 哥 作 图 技术 有 
限 ， 图 中 无 法 精确 表示 这 个 含义 ) ， 因 为 使 用 的 是 同一 个 电容 /电阻 ， 而 红 
色 曲 线 斜 率 不 同 ， 因 为 表示 的 是 三 个 不 同 频率 、 相 同 振幅 的 信号 。 可 以 看 


зч ”到 ， 频 率 越 高 的 信号 ， 其 振幅 被 抵消 的 程度 越 少 ， 最 后 保留 下 来 的 振幅 就 相 
对 越 多 ; 频率 越 低 的 信号 ， 其 振幅 则 被 抵消 得 越 彻底 ， 最 后 保留 下 来 的 振幅 
9 ”就 越 小 。 如 果 是 频率 为 0， 也 就 是 不 变化 的 直流 电压 呢 ? 那 它 就 直接 被 彻底 
= 过 滤 掉 。 这 也 是 所 谓 的 电容 可 以 通 交 隔 直 的 原理 。 振 幅 被 抵消 ， 这 又 被 称 
£ ни 
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注意 ， 由 于 电容 电压 的 变化 曲线 与 信号 源 是 有 相位 差 的 ， 所 以 单一 正弦 
波 信号 源 振幅 被 削弱 之 后 ， 其 波形 就 不 是 正弦 波 了 。 图 中 仅 给 出 示意 图 ， 并 
非 体 现 真正 波形 。 关 于 真 波形 ， 请 阅读 第 1 章 相 关内 容 。 


综 上 ， 有 了 这 个 电容 ， 发 送 方 和 接收 方 器 件 就 可 以 各 自 工 作 在 不 同 的 中 
心 电 压 上 了 。 通 过 调节 RC 值 匹配 通信 双方 的 信号 变化 频率 ， 就 可 以 让 信号 通 
过 电容 并 且 保持 住 足够 的 时 间 供 接收 方 电路 将 其 锁 存 。 同 时 该 电容 还 阻碍 了 
直流 电 的 通过 ， 纵 使 发 送 方 的 电位 高 于 接收 方 ， 也 不 会 有 持续 的 电流 通过 产 
生 功 耗 。 另 外 ， 该 电容 还 可 以 起 到 抗 干扰 的 作用 ， 比 如 环境 中 充满 了 50 Hz 交 
流 电 的 辐射 信号 ， 由 于 高 速 串 行 通信 链 路 上 的 信号 速率 一 般 在 10 GHz 以 上 
50 Hz 相 比 之 下 属于 低频 ， 那 么 该 信号 就 会 被 电容 阻隔 掉 ， 其 振幅 削弱 到 可 以 
忽略 不 计 ， 从 而 避免 了 其 与 其 他 信号 的 振幅 印加 ， 能 得 到 更 纯 的 波形 。 该 电 
容 被 称 为 AC 斐 合 电容 〈 交 流 耦 合 电容 ) ， 耦 合 是 指 将 双方 的 链 路 通过 电容 耦 
合 起 来 。 


到 大 话 计算 机 一 一 计算 机 系统 底层 架构 原理 极限 剖析 


第 1 章 曾经 介绍 过 电容 和 滤波 。 结 合 上 面 的 过 
程 ， 你 应 该 可 以 更 加 深刻 理解 电容 滤波 底层 机 制 了 。 
上 述 机 制 的 本 质 其 实 就 是 用 电容 内 部 的 压 差 来 抵消 振 
幅 ， 如 果 多 个 波 是 又 加 在 一 起 的 ， 无 非 也 是 振幅 的 相 
加 ， 而 电容 可 不 管 这 些 波 是 怎么 又 加 的 ， 电 容 只 管 将 
其 总 振幅 抵消 掉 ( 相 减 ) 对 应 的 值 。 如 果 双 加 之 后 的 
波形 中 的 某 个 分 量 波 的 振幅 变化 与 电容 电压 的 变化 刚 
好 契合 ， 那 么 该 分 量 对 应 的 振幅 就 直接 被 减 掉 ， 减 出 
来 的 波形 就 好 像 没 有 倒 加 这 个 分 量 一 样 。 越 与 电容 
电压 曲线 接近 的 波形 ， 被 减 得 越 彻底 。 这 样 ， 最 终 
那些 越 接 近 电容 电压 抬升 曲线 变化 率 的 信号 ， 其 振 
幅 分 量 就 恰好 被 抵消 到 了 点 儿 上 ， 其 振幅 被 削弱 得 
越 彻 底 ， 可 以 认为 被 更 彻底 地 过 滤 掉 。 而 那些 高 频 
段 的 信号 振幅 虽然 也 被 削弱 ， 但 是 相 比 之 下 就 没有 
那么 彻底 了 ， 这 样 高 频 波形 振幅 在 到 加 波 中 的 比例 
就 会 变 高 ， 从 而 实现 滤波 。 由 于 滤波 之 后 ， 所 有 波 
形 分 量 的 振幅 都 会 被 前 弱 ， 所 以 还 需要 一 定 程度 的 
信号 放大 处 理 过 程 。 至 此 你 应 该 体会 到 为 什么 不 同 
频段 的 信号 可 以 复 用 在 同一 根 导 线 上 ， 或 者 真空 里 
而 相互 又 可 分 离开 了 。 


既然 滤波 的 本 质 就 是 将 不 想 要 的 频率 分 量 波 的 
振幅 抵消 掉 ， 那 么 是 不 是 可 以 直接 向 待 过 滤 的 信和 号 
中 登 加 注入 一 个 或 者 一 段 与 待 滤 除 波 /波段 的 反 相 位 
的 一 定 振幅 的 波形 ? 这 就 是 主动 降 品 的 原理 。 市 面 
ЕЖА, ИЯ, ЯМА 
等 ， 它 们 的 原理 都 是 把 采集 到 的 环境 声波 信号 做 反 
相处 理 ， 然 后 将 反 相 之 后 的 声波 从 耳机 发 出 与 外 界 
嗓 声 登 加 。 仔 细 听 一 下 就 会 发 现 ， 在 打开 降 噪 开关 
之 前 ， 耳 机 内 部 不 发 声 ， 打 开 开 关 之 后 反而 发 出 了 
很 小 的 喻 喻 声 ， 当 你 佩戴 上 它 ， 这 个 喻 喻 声 便 与 环 
境 噪声 抵消 了 。 


Sound waves created Моіѕе created 
by headphone speaker by extemal source 


思考 一 个 问题 : 发 送 方 如 果 发 送 连续 的 二 进 制 
1, RRETA? 显然 ， 如 果 电 容 充 电 到 足以 将 接收 
方 感受 到 的 压 差 抵抗 到 无 法 判断 其 为 二 进 制 1 时 ， 通 


信和 就 会 出 现 问题 。 此 时 接收 方 不 再 感受 到 电压 的 变 
化 ， 收 到 的 既 非 1 也 非 0， 接 收 端 电 路 可 能 会 随机 认为 
其 是 1 或 者 0， 从 而 产生 乱码 。 其 实 ， 连 续 发 送 的 1， 
本 质 上 就 是 直流 电 了 ， 会 被 电容 隔 掉 。 

为 了 解决 这 个 问题 ， 人 们 不 得 不 将 发 送 端的 数 
据 进行 强制 重新 编码 ， 比 如 高 速 串 行 链 路 常用 的 NMM 
位 编码 ， 如 4/5 位 、8/10 位 、64/66 位 等 ， 不 同 链 路 速 
率 、 类 型 的 编码 规格 都 不 同 。N/M 的 含义 是 N 位 的 原 
始 数 据 按照 一 定 算法 插入 M-N) 个 位 变 成 M 位 的 数 
据 在 线路 上 传递 。 对 应 的 算法 会 确保 编码 之 后 的 数据 
不 会 出 现 足以 让 接收 方 误 判 的 连续 的 1 或 者 9， 其 可 以 
平衡 比特 流 中 1 和 0 的 数量 ， 从 而 可 以 让 这 些 数据 产生 
高 低 电压 震荡 ， 这 被 称 为 直流 平衡 ， 也 就 是 尽量 避免 
直流 成 分 。 除 此 之 外 ，N/M 位 编码 产生 的 足够 的 振荡 
还 可 以 被 接收 方 用 于 时 钟 同步 (接收 方 电路 从 这 些 高 
低 跳 变 中 能 够 知道 发 送 方 的 时 钟 相位 ， 从 而 调整 本 地 
相位 与 之 匹配 ) 。 


7.3.2.2 加 扰 的 作用 


试想 一 下 ， 如 果 发 送 方 连续 发 送 重 复 的 数据 (你 
并 不 能 禁止 发 送 方 发 送 任何 形态 和 内 容 的 数据 ) ， 
这 些 数据 即使 被 N/M 位 编码 之 后 的 内 容 也 依然 是 相同 
的 。 这 看 上 去 没什么 问题 。 但 是 ， 线 路 上 总 是 重复 
相同 的 信号 ， 会 对 周围 的 电路 产生 尖锐 的 电磁 干扰 
(Electro Megnatic Interference ，EMI) 。 因 为 线路 上 
的 每 种 波形 对 对 应 着 频 域 频谱 图 ， 如 果 线 路 上 总 是 持 
续 着 同一 种 波形 ， 那 么 该 线路 辐射 出 去 的 电磁 波 就 会 
持续 该 频谱 ， 而 且 链 路 上 的 能 量 是 恒定 的 。 如 果 辐 射 
出 去 的 电磁 波 只 有 少数 频段 ， 那 么 线路 上 的 所 有 能 量 
就 会 在 这 些 频 段 更 集中 地 辐射 ， 会 像 尖刀 一 样 刺 中 其 
他 线路 上 的 相同 频段 的 信号 ， 对 后 者 产生 致命 干扰 。 
相 比 之 下 ， 如 果 链 路 上 传递 的 1 和 0 本 身 毫 无 规律 ， 那 
么 对 应 的 波形 也 就 杂乱 无 章 ， 对 应 的 频段 也 是 杂乱 无 
章 ， 能 量 平均 分 布 在 更 宽 的 频段 上 ， 这 种 链 路 辐射 出 
去 的 电磁 波 就 是 白 噪 声 ， 频 段 变 钝 ， 它 具有 广 普 杀伤 
力 ， 但 是 杀伤 力 极其 微弱 。 如 图 7-38 所 示 为 两 种 不 同 
类 型 的 EMI 辐 射 示意 图 。 


这 就 像 某 个 聊 嗓 的 人 在 你 耳 采 旁边 一 直 架 四 个 
没完 ， 如 果 他 每 次 都 说 不 同 的 话题 也 还 好 ， 但 是 他 
如 果 不 停 重复 某 个 句子 : “ТА? 吃 了 么 ? % 
TZ? 吃 了 么 ? …… ”此 时 你 是 否 感 觉 你 的 脑袋 都 
要 爆 了 呢 ? 同样 的 道理 ， 如 果 你 长 期 只 吃 一 样 或 者 
某 几 样 食物 ， 这 会 导致 营养 不 良 、 产 生 疾 病 。 如 果 
你 长 期 保持 一 个 姿势 不 变 ， 这 容易 导致 颈椎 腰椎 肌 
肉 韧 带 老化 。 冬 瓜 哥 饱 受 颈椎 韧带 钙化 的 折磨 多 
年 ， 如 果 提早 深刻 理解 这 个 道理 ， 就 不 至 于 沦落 到 
今天 这 个 状态 了 。 
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图 7-38 ”尖锐 的 EMI 噪 声 及 平均 的 白 噪声 


另外 ， 重 复 的 数据 产生 重复 的 波形 ， 一 旦 其 他 某 
个 干扰 源 发 出 的 电磁 波 对 该 波形 恰好 干扰 最 严重 ， 那 
么 该 重复 的 数据 就 会 大 量 出 错 ， 出 现 严 重 的 乱码 。 这 
会 增加 通信 开销 ， 比 如 上 层 传输 层 会 不 断 重 传 ， 但 是 
每 次 重 传 依然 是 错误 的 。 

正如 上 文 所 说 ， 你 并 不 能 禁止 发 送 方 发 送 重 复数 
据 。 假 如 某 个 文件 中 保存 的 就 是 无 数 多 个 “ 吃 了 么 ” 
字符 串 ， 该 文件 要 被 传递 给 另外 一 台 计 算 机 ， 怎 么 办 
呢 ? N/Mb 编 码 解决 不 了 这 个 问题 ， 因 为 即便 是 NM 
编码 完 之 后 ， 待 发 送 的 数据 中 也 依然 是 大 量 的 重复 内 
容 ， 比 如 可 能 变 成 “一 吃 一 @# 了 % 么 一 ”， 链 路 上 依 
然 会 传送 重复 的 “一 吃 一 @# 了 % 么 一 ”， 更 揪心 。 

要 解决 这 个 问题 ， 每 次 发 送 的 数据 帧 必须 进行 
不 同 算法 的 编码 ， 即 便 原 始 数据 相同 ， 编 码 完 后 也 
必须 产生 完全 不 同 的 数据 才 可 以 。 那 么 ， 接 收 端 就 
需要 知道 每 个 帧 到 底 使 用 了 哪 种 编码 ， 从 而 做 对 应 
的 解码 操作 ， 所 使 用 的 编码 算法 代号 可 以 放置 到 数 
据 帧 头 某 个 固定 字段 中 。 但 是 ， 这 些 编码 算法 必须 
足够 多 ， 你 不 能 只 给 出 两 种 算法 轮流 使 用 ， 这 样 对 
信号 的 打 乱 力 度 远 远 不 够 。 可 是 ， 去 哪 找 这 么 多 编 
码 算法 呢 ? 就 算 存在 足够 多 种 算法 ， 发 送 方 和 接收 
方 的 电路 需要 做 进去 如 此 多 不 同 的 编码 算法 电路 ， 
那 是 绝对 不 现实 的 。 

能 不 能 换 一 种 思路 ? 我 们 用 同一 种 算法 ， 但 是 每 
一 帧 都 使 用 不 同 的 数据 与 原始 数据 做 某 种 可 逆 运 算 ， 
比如 加 、 减 、 乘 、 异 或 等 ， 这 样 就 能 把 相同 内 容 的 原 
始 帧 编码 成 不 同 内 容 。 这 个 用 于 与 原始 帧 做 运算 的 值 
被 称 为 种 子 值 (seed) 。 链 路 上 每 传送 一 段 数据 ， 就 
换 一 个 种 子 值 ， 继 续 与 下 一 段 的 内 容 做 运算 。 显 然 ， 
接收 方 必须 知道 每 一 段 数据 对 应 的 种 子 值 是 多 少 ， 以 
便利 用 它 来 做 逆 运 算 算出 原始 值 。 为 此 ， 发 送 方 可 以 
将 该 种 子 值 附 加 到 每 一 段 数据 的 头 部 一 并 传送 给 对 
方 。 种 子 值 每 段 数据 变 一 次 。 下 一 个 值 相 比 上 一 个 值 
必须 变化 足够 大 ， 不 能 每 次 只 变 一 两 位 ， 否 则 剩余 的 
那些 没 变化 的 位 与 下 一 段 计 算 后 的 内 容 可 能 与 上 一 段 
数据 同样 偏 移 量 处 算出 的 内 容 相同 ， 如 果 下 一 段 数据 


的 内 容 与 上 一 段 相同 的 话 。 一 段 数据 ， 可 以 是 一 整 
帧 ， 也 可 以 是 若干 个 字 节 ， 不 同 的 物理 层 规范 的 定义 
不 尽 相 同 。 

上 面 的 方法 看 上 去 不 错 ， 但 是 依然 不 够 彻底 。 
比如 ， 如 果 某 段 数据 内 部 存在 多 个 重复 相同 的 码 流 片 
段 ， 用 相同 的 种 子 值 来 对 其 运算 ， 结 果 也 是 相同 的 ， 
这 样 达 不 到 扰乱 的 目的 。 为 此 ， 人 们 发 明了 更 加 彻底 
的 方式 ， 那 就 是 种 子 值 在 每 一 个 位 之 后 就 变化 一 次 
这 样 就 可 以 保证 bit 级 别 的 扰乱 了 。 

为 了 在 每 个 传送 时 钟 周期 都 改变 一 次 种 子 值 ， 可 
以 采用 一 个 移 位 寄存 器 ， 给 它 赋 以 一 个 初始 非 全 0 的 
种 子 值 ， 如 图 7-39 左 侧 所 示 。 在 每 个 时 钟 周期 ， 将 移 
位 寄存 器 的 最 高 位 输出 值 与 原始 数据 中 待 发 送 的 位 做 
异 或 之 后 发 出 到 线 绕 。 在 下 一 个 时 钟 周期 ， 移 位 寄存 
器 的 次 高 位 会 移动 到 最 高 位 ， 然 后 再 与 原始 数据 流 的 
下 一 位 异 或 之 后 发 出 。 移 位 寄存 器 每 次 移 位 ， 最 低位 
会 自动 补 一 个 0 进来 ， 这 样 ， 在 多 次 移 位 之 后 ， 寄 存 
器 中 的 值 将 会 是 全 0， 不 再 具有 效果 (A 异 或 0=A) 。 
所 以 人 们 想 了 一 个 办 法 ， 让 寄存 器 中 的 值 永远 都 不 会 
变 成 全 0 而 且 还 能 保持 足够 凌乱 。 

为 了 让 每 次 新 补 入 的 值 不 恒定 为 0， 人 们 在 寄存 
器 中 挑 出 几 个 位 置 ， 让 这 些 位 置 上 的 值 做 异 或 操作 ， 
然后 把 结果 反馈 回 最 低位 ， 这 样 每 次 补 入 的 值 就 总 会 
有 1， 杜 绝 了 全 0 输出 ， 如 图 7-39 右 侧 所 示 。 

种 子 值 需要 附带 到 每 段 / 帧 数据 的 头 部 一 并 传送 到 
对 方 。 接 收 方 每 收 到 一 帧 ， 就 从 帧 头 部 取出 种 子 值 ， 
载 入 接收 方 的 种 子 值 移 位 寄存 器 ， 做 与 发 送 方 相同 的 
动作 ， 也 就 是 将 种 子 值 与 接收 到 的 数据 再 次 进行 异 或 
运算 ， 即 可 得 出 原始 数据 。 异 或 算法 有 个 特点 就 是 ， 
A 异 或 B=C，C 异 或 B=A。 

上 述 方式 只 是 众多 方式 中 的 一 种 。 还 有 另外 一 种 
方式 比较 有 趣 ， 其 不 使 用 移 位 寄存 器 ， 用 普通 寄存 器 
即 可 。 初 始 时 对 该 寄存 器 输入 全 0 值 ， 然 后 电路 将 寄 
存 器 中 的 值 与 待 发 送 的 第 一 个 帧 的 第 一 个 字 节 做 异 或 
运算 ， 将 算 好 的 值 反馈 输入 给 种 子 寄存 器 ， 然 后 用 该 
值 再 与 待 发 送 帧 的 第 二 个 字 节 做 运算 ， 再 将 算 好 的 值 
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图 7-39 利用 移 位 寄存 器 对 种 子 值 进行 每 周期 变更 


反馈 回去 与 后 续 字 节 运 算 。 也 就 是 直接 用 上 一 字 节 的 
运算 结果 与 下 一 字 节 运 算 。 这 样 做 的 好 处 是 ， 不 需要 
将 种 子 值 一 并 传递 给 对 方 ， 因 为 对 方 收 到 的 数据 帧 里 
已 经 包含 了 种 子 值 (下 一 个 字 节 的 种 子 值 就 是 上 一 个 
字 节 ) ， 接 收 方 接收 到 的 第 一 个 字 节 将 其 与 全 0 进行 
逆 运 算 ， 然 后 再 用 第 一 个 字 节 与 收 到 的 第 二 个 字 节 进 
行 逆 运 算 ， 以 此 类 推 即 可 还 原 出 整 帧 的 原始 内 容 。 这 
种 自 包含 式 的 种 子 值 通告 方式 可 以 节省 链 路 带宽 。 

上 述 对 数据 进行 打 乱 的 过 程 ， 被 称 为 加 扰 ， 种 子 
值 又 被 称 为 扰 码 ， 实 现 加 扰 解 扰 的 电路 模块 被 称 为 加 
扰 器 / 解 扰 器 (Scrambler/Descrambler) ， 由 于 加 扰 后 
的 信和 号 的 频谱 范围 被 拓宽 ， 这 个 过 程 也 被 称 为 扩 频 。 
这 里 可 能 会 有 个 疑问 : 加 扰 器 是 否 可 以 一 并 实现 对 连 
续 的 1 或 者 0 中 插入 一 些 跳 变 值 ， 从 而 省 掉 N/Mb 编 解 
码 模块 ?由 于 采用 异 或 算法 具有 较 大 的 随机 不 可 预测 
性 ， 如 果 不 使 用 N/Mb 编 码 只 使 用 加 扰 的 话 ， 后 者 并 
不 能 保证 加 扰 后 的 数据 任何 情况 下 都 不 出 现 连续 的 0 
或 者 1。 由 于 移 位 寄存 器 每 次 形成 的 种 子 值 其 实 是 可 
以 预测 出 来 的 ， 如 果 发 送 方程 序 故意 发 送 一 串 比特 
流 ， 其 与 种 子 值 异 或 之 后 的 结果 是 全 1， 这 是 有 可 能 
的 。 即 便 采 用 自 包含 种 子 值 方式 ， 也 可 以 精确 设计 数 
据 内 容 ， 让 上 一 字 节 与 下 一 字 节 的 运算 值 也 为 全 1 或 
者 全 0。 所 以 黑客 就 利用 这 种 方式 来 攻击 对 方 的 通信 
设备 ， 让 对 方 的 AC 耦 合 电容 充满 电 ， 从 而 失去 了 响 
应 信号 的 能 力 ， 导 致 接收 方 通信 链 路 中 断 ， 严 重 者 可 
能 导致 大 范围 网 络 瘫痪 。 所 以 ， 一 般 来 讲 ，N/M 位 编 
码 与 加 扰 要 同时 存在 ， 先 N/M 位 编码 ， 后 加 扰 。 


7.3.2.3 ”各 种 线路 编码 


是 不 是 感觉 物理 层 竟然 如 此 暗流 测 涌 ? 还 没 结 
束 。 加 完 扰 之 后 的 数据 ， 依 然 是 比特 流 。 但 是 这 些 逻 
辑 比 特 信号 在 被 加 到 导线 上 变 成 电压 信号 之 前 ， 还 
需要 经 过 一 些 线路 级 编码 操作 ， 这 些 编码 将 比特 流 


(Bit) 变 成 波 特 流 (Baud) 。 所 谓 波 特 ， 正 如 其 名 
字 一 样 ， 考 查 的 是 导线 上 的 波形 的 实际 变化 频率 。 你 
可 能 会 有 个 疑问 ， 难 道 不 是 二 进 制 1 就 是 波峰 ， 二 进 
制 0 就 是 波 谷 么 ? 远 没 这 么 简单 。 如 图 7-40 所 示 为 部 
分 类 型 的 线路 编码 ， 实 际 还 有 更 多 类 型 请 大 家 自行 
了 解 。 

如 图 7-40 所 示 ，RZ 编 码 方式 下 ， 每 次 表示 完 1 或 
者 0， 信 号 都 要 回归 零点 电压 ， 我 们 可 以 计算 出 ， 表 
示 每 个 二 进 制 位 ， 电 压 需要 跳 变 2 次 ， 那 么 我 们 就 说 
该 编码 方式 为 2 波 特 / 位 。 相 对 而 言 ，NRZL 编 码 方式 
则 为 最 大 1 波 特 / 位 ， 最 小 0 波 特 /bit。 显 然 ， 如 果 线 路 
为 RZ 编码 方式 ， 那 么 上 层 就 不 需要 N/M 位 编码 来 保证 
避免 出 现 过 多 的 连续 的 /0， 因 为 RZ 模式 下 信号 总 会 
归 零 ， 电 压 总 会 振荡 ， 直 流 总 会 平衡 ， 接 收 方 永 不 担 
心 时 钟 恢复 问题 。 而 NRZL 编 码 方式 则 必须 依靠 上 层 
配套 的 NM 位 编码 。RZ 方 式 以 及 图 中 的 曼彻斯特 方式 
下 的 波 特 率 为 码 率 的 两 倍 ， 所 以 驱动 用 于 产生 波形 的 
电路 的 时 钟 频率 相应 也 得 是 产生 二 进 制 码 编码 电路 时 
钟 频率 的 两 倍 ， 设 计 上 增加 了 复杂 度 。 

图 中 也 给 出 了 NRZI 编 码 的 实现 原理 ， 可 以 看 到 
利用 一 个 异 或 门 来 判断 本 次 输入 信号 与 上 一 次 线路 上 
信号 是 否 相 同 ， 来 产生 对 应 的 输出 信号 给 触发 器 。 在 
发 送 时 钟 的 触发 下 ， 触 发 器 将 生成 的 新 信号 输送 到 线 
路 上 。 大 家 可 以 自行 演绎 一 下 这 个 过 程 。 

传输 信号 的 介质 被 称 为 信道 ， 信 道上 充满 了 各 种 
干扰 产生 的 噪声 。N/M 位 编码 、 各 种 校 验 纠 错 码 、 扰 
码 以 及 最 终 线 路 编码 ， 都 属于 信道 编码 。 而 上 层 的 帧 
头 格式 、Payload 内 部 的 内 容 编码 ， 比 如 ASKII 码 ， 属 
于 信 源 编码 。 传 输 信息 的 介质 被 称 为 信道 。 

到 这 里 该 是 最 后 一 层 了 吧 ? 非 也 。 上 述 过 程 把 信 
源码 编码 成 信道 码 之 后 ， 如 果 底 层 链 路 是 数字 信号 链 
路 ， 则 电路 会 将 对 应 的 高 低 电 压 信号 直接 发 送 到 导线 
上 了 ， 还 可 以 加 一 个 光电 转换 器 〈 如 图 7-41 所 示 ) 把 
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电信 号 调制 到 光 信号 的 强 弱 上 利用 光纤 传 出 去 。 


图 7-41 ”光电 转换 模块 


7.3.2.4 ”各 种 模拟 调制 技术 


如 果 采 用 模拟 线路 与 通信 对 端 连接 的 话 ， 还 需要 
将 数字 信号 调制 到 一 个 高 频 正弦 载波 上 ， 那 就 需要 一 
个 调制 解 调 器 。 调 制 解 调 器 一 端 采用 与 你 的 设备 相同 
的 物理 层 连 接 器 和 IO 控制 器 ， 将 数据 帧 收 到 自己 内 
部 的 缓冲 中 ， 然 后 对 数字 信号 进行 调制 。 

调制 方式 有 很 多 ， 如 图 7-42 左 侧 所 示 。 比 如 第 1 
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章 中 介绍 过 的 AM 调制 ， 只 不 过 当时 介绍 的 是 把 模拟 
信号 调制 到 高 频 载 波 上 。 现 在 我 们 要 把 数字 信号 调制 
到 载波 振幅 上 ， 道 理 其 实 是 一 样 的， 依然 是 将 原始 波 
与 载波 相 乘 。 可 以 看 到 ， 强 弱 调 幅 的 波形 的 包 络 线 对 
应 的 就 是 数字 信号 的 波形 。 调 相 调制 就 是 利用 载波 
的 相位 变化 表示 数字 信号 ， 遇 1 则 产生 某 个 相位 的 波 
形 ， 遇 0 则 变换 相位 。 调 频 调 制 则 是 利用 频率 变化 来 
表示 1 和 0。 

混合 调制 是 一 种 将 调幅 、 调 相 、 调 频 结 合 起 来 调 
制 的 方式 ， 如 图 7-42 右 侧 所 示 。 蓝 色 波 形 与 黑色 波形 
的 相位 相差 180 度 。 如 果 人 为 定义 两 个 频率 、 两 个 相 
位 和 两 个 振幅 ， 那 么 载波 的 一 个 周期 的 波形 就 可 以 从 
这 8 种 不 同 的 状态 中 选 出 一 种 加 载 到 波形 上 ， 如 果 将 
这 8 种 状态 表示 成 二 进 制 值 的 话 ， 一 个 周期 的 波形 就 
可 以 表示 3 位 。 只 要 人 为 定义 一 个 对 应 关系 ， 比 如 ， 
0 相位 、1/2 倍 振幅 、1 倍 频率 的 波形 表示 000，180 度 
相位 、1/2 倍 振幅 、2 倍 频率 的 波形 表示 011 等 。 那 么 
假设 发 送 方 要 传递 某 串 比特 流 ， 只 需要 将 该 比特 流 按 
照 3 位 分 段 ， 然 后 对 应 到 对 应 的 波形 ， 控 制 着 对 应 电 
路 发 出 该 波形 到 介质 上 即 可 。 这 样 ， 用 一 个 周期 的 载 
波 就 可 以 表示 3 位 了 ， 传 输 码 率 大 大 提升 。 或 者 如 图 
下 方 所 示 的 ， 用 多 个 周期 的 相同 波形 表示 3 位 数据 ， 
实际 中 用 多 少 个 周期 来 表示 根据 信道 的 频带 宽度 资源 
来 定 ， 详 见 下 文 对 频 宽 、 码 率 、 载 波 频 率 之 间 关 系 的 
介绍 。 

那么 ， 能 否 用 2 个 频率 、3 个 振幅 、3 个 相位 来 形 
成 18 个 状态 ， 这 样 就 可 以 用 一 个 波形 来 编码 4 位 的 数 
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据 ， 如 图 7-43 所 示 。 可 以 看 到 波形 中 产生 了 有 裂痕 ， 这 
是 由 于 每 个 前 后 波形 相位 不 一 致 导致 的 ， 这 个 裂痕 实 
际 中 体现 为 电压 的 跃 变 ， 实 际 波形 图 为 黑色 曲线 所 表 
示 的 样子 。 如 果 电 压 不 按照 纯 单一 正弦 波 的 轨迹 走 ， 
而 是 发 生 跃 变 ， 那 这 就 意味 着 更 多 高 频 杂 波 信号 的 参 
与 ， 明 白 这 一 点 至 关 重 要 。 

实际 中 的 混合 调制 方式 ， 几 乎 没有 用 变频 的 ， 都 
是 调幅 + 调 相 的 组 合 ， 因 为 变频 调制 的 话 ， 接 收 端 解 
调 过 程 会 比较 复杂 。 另 外 ， 在 信道 上 传递 的 数据 的 载 
波 的 频率 最 好 是 不 变 的 ， 尤 其 是 对 高 速 信号 而 言 ， 这 
样 可 以 针对 信号 做 各 种 预 处 理 和 后 处 理 来 实现 抗 干扰 
等 特性 ， 如 果 频 率 不 断 变化 ， 那 就 不 好 控制 了 。 抛 开 
调频 这 个 维度 ， 只 调幅 和 调 相 ， 使 用 4 个 振幅 和 4 个 相 


位 实现 16 种 波形 组 合 ， 每 个 载波 周期 表示 4 位 ， 如 图 
7-44 所 示 。 

实际 中 ， 人 们 根据 实际 情况 定义 出 一 些 固定 的 
振幅 和 相位 ， 生 成 了 对 应 的 映射 关系 图 来 表示 二 进 制 
码 、 相 位 、 振 幅 之 间 的 映射 关系 。 图 7-44 右 侧 给 出 的 
是 这 种 关系 图 的 伪 示 意图 。 右 上 方 的 图 中 ， 圆 环 径 向 
距离 绝对 值 表示 振幅 ， 每 个 点 的 角度 表示 相位 。 本 例 
中 的 波形 就 是 按照 这 个 图 定义 的 。 而 右 下 角 的 这 个 
方形 分 布 图 ， 每 个 点 距离 中 心 的 长 度 绝对 值 表 示 振 
幅 ， 角 度 表示 相位 ， 可 以 看 到 其 共有 12 个 相位 和 3 个 
振幅 ， 能 够 组 合 出 36 种 不 同情 况 。 图 中 只 是 给 出 了 一 
种 粗略 示意 ， 实 际 的 点 位 图 的 横 纵 坐标 含义 和 单位 
并 非 如 此 简单 。 感 兴趣 的 读者 可 自行 了 解 ， 扫 码 看 
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动态 图 。 经 过 探索 ， 人 们 最 终 计 算出 一 些 能 够 用 简 
单 的 方法 调制 解 调 的 混合 调制 振幅 、 相 位 组 合 

称 为 正 交 幅度 调制 (QAM) 。8QAM 表 示 利 用 4 个 相 
位 和 2 个 振幅 组 合成 8 种 波形 ， 表 示 3 位 ; 同 理 ， 还 有 
16/64/256QAM 甚 至 1024QAM。 有 兴趣 的 读者 可 自行 
тм. 

这 种 调制 方式 ， 本 质 上 其 实 相当 于 双方 用 对 暗号 
的 形式 ， 用 少量 的 暗号 一 次 传递 更 高 的 密度 的 信息 。 
比如 ， 双 方 事先 规定 好 有 限 数量 的 句子 ， 每 个 句子 包 
含 大 量 的 字符 ， 这 些 句子 编 上 号 ， 如 1 号 句子 、2 号 
句子 。 传 递 信息 并 不 是 将 这 些 句 子 中 的 字符 本 身 传 过 
去 ， 而 是 只 传递 编号 。 对 方 收 到 句子 编号 后 ， 用 本 地 
的 码 表 将 对 应 句子 的 字符 找 出 来 ， 这 样 就 省 掉 传 字符 
了 。 这 种 方式 的 一 个 前 提 是 ， 所 传递 的 信息 必须 是 有 
限 的 而 不 是 无 限 的 ， 否 则 编号 也 会 无 限 ， 码 表 也 会 无 
限 大 。 这 种 方式 被 统称 为 高 阶 调制 。 

可 能 有 读者 曾经 使 用 过 ADSL 方 式 接 入 网 络 运营 
商 ， 第 一 代 速率 为 512KB/s， 后 来 为 IMB/s， 再 后 来 
升级 到 2MB/s、8MB。 传 输 码 率 提升 是 怎么 做 到 的 
呢 ? 明 白 了 上 述 的 机 制 之 后 ， 你 就 知道 了 ， 其 实 就 是 
所 使 用 的 调制 方式 越 来 越 高 阶 。 除 了 16QAM， 还 有 
一 个 波形 周期 可 表示 6 位 的 64QAM， 以 及 表示 8 位 的 
2560АМ. 

混合 调制 如 此 划算 ， 那 我 们 干脆 都 用 256QAM， 
或 者 继续 提升 到 更 高 阶 数 ， 何 乐 而 不 为 ? 收益 越 大 ， 
代价 越 高 。 假 设 我 们 将 振幅 细 分 为 八 分 之 一 粒度 ， 那 
么 每 个 振幅 级 之 间 的 电 平 值 相差 就 非常 小 ， 一 旦 信道 
遭受 噪声 或 者 其 他 类 型 的 干扰 ， 某 个 波形 的 幅 值 变化 
了 ， 那 么 该 幅度 值 由 于 与 其 他 波形 本 身 就 相差 太 小 ， 
那 就 无 法 区 分 该 幅 值 原来 是 什么 ， 这 会 导致 乱码 。 所 
以 ， 仅 当 信道 质量 非常 好 时 ， 才 能 采用 更 高 混合 度 的 
调制 。 有 些 通信 设备 之 间 ， 比 如 手机 和 基站 之 间 ， 可 
以 动态 调整 调制 方式 ， 这 就 是 在 高 铁 上 你 有 时 使 用 数 
据 流量 上 网 而 网 速 非常 慢 ， 甚 至 连 不 上 网 的 原因 。 信 
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道 质 量 太 差 ， 系 统 会 自动 降低 调制 阶 数 。 

混合 调制 如 此 划算 ， 那 我 们 干脆 别 用 数字 信和 号 
了 。 数 字 信号 每 个 波 特 甚至 每 两 个 波 特 才 传 1 位 ， 这 
是 何苦 呢 ? 全 都 改 用 混合 调制 方式 怎么 样 ? 其 实 ， 数 
字 信 号 利用 波峰 波 谷 区 分 0 和 1 的 机 制 相 比 模拟 信号 载 
波 调制 而 言 还 是 更 加 健壮 的 ， 尤 其 是 能 够 抗 干扰 ， 这 
也 正 是 其 码 率 和 波 特 率 可 以 达到 当前 25 GHz 的 原因 。 
我 们 再 来 看 看 目前 的 模拟 信号 通信 和 领域 ， 比 如 移动 
通信 ， 其 采用 的 载波 波段 范围 在 数 百 MHz 到 3 GHz, 
远 低 于 目前 数字 通信 和 领域 的 最 高 25 GHz。 另 外 ， 如 
64QAM 这 种 调制 方式 ， 一 般 用 多 个 载波 周期 承载 6 位 
数据 ， 而 数字 信号 则 是 每 个 波形 承载 1 位 数据 ， 所 以 
用 模拟 调制 方式 相 比 直接 传送 数字 信号 并 无 收益 。 用 
模拟 调制 更 多 是 为 了 与 其 他 信号 复 用 同一 个 信道 。 

但 是 也 的 确 有 技术 先 将 数字 信号 用 8QAM 调 制 到 
载波 上 ， 然 后 再 将 该 载波 的 波形 电 平 值 转换 为 光 信 和 号 
的 强 弱 值 ， 从 光纤 上 发 送 到 对 端 ， 在 对 端 转 成 电信 
号 ， 再 解 调制 。 

那么 ， 将 数字 信号 调制 到 模拟 载波 上 的 调制 器 
是 怎样 一 个 作用 机 制 ? 观察 图 7-40， 导 线 上 的 一 个 个 
波形 ， 看 上 去 好 像 是 一 个 个 拼接 上 去 的 。 想 象 有 一 只 
无 形 的 手 ， 这 只 手 根据 收 到 的 二 进 制 数据 比特 判断 ， 
将 对 应 的 波形 载 入 导线 上 。 在 早期 ， 人 们 的 确 是 这 样 
做 的 。 频 移 键 控 ( 调 频 ) 调制 方式 ， 将 原始 载波 进行 
变频 操作 生成 多 路 不 同 频率 的 载波 ， 然 后 通过 一 个 
Crossbar 开 关 ， 根 据 输 入 的 二 进 制 数据 的 不 同 ， 动 态 
将 某 路 载波 输出 对 应 的 时 间 ， 便 实现 了 调制 ， 如 图 
7-45 所 示 。 这 种 通过 开关 切换 不 同 波形 的 做 法 称 为 键 
控 。 然 而 ， 目 前 几乎 所 有 实现 都 不 再 采用 键 控 方式 ， 
而 转 为 使 用 乘法 器 等 方式 来 实现 调制 。 有 兴趣 的 读者 
可 以 自行 了 解 。 

如 图 7-46 所 示 为 调频 解 调 原理 示意 图 ， 用 4 种 不 
同 的 频率 表示 2 位 。 在 接收 端 ， 信 号 同时 输入 到 多 个 
带 通 滤波 器 ， 滤 出 相应 频段 的 波形 ， 再 进入 包 络 检 波 
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得 到 包 络 线 ， 然 后 利用 采样 电路 对 多 路 输入 做 采样 ， 
在 哪 一 路 上 采 到 了 高 电 平 ， 则 向 输出 端 输出 对 应 的 二 
进 制 编码 ， 最 后 就 得 到 了 串 行 二 进 制 数据 流 ， 实 现 了 
解 调 。 

相 移 键 控 〈 调 相 ) 过 程 及 解 调 过 程 ， 用 两 个 相位 
表示 1 位 ， 如 图 7-47 所 示 。 使 用 键 控 方 式 在 两 个 波形 
之 间 切 换 ， 每 个 位 用 3 个 载波 周期 表示 。 

解 调 的 过 程 相 比 调频 而 言 复杂 了 一 些 。 需 要 先 将 
调制 波 与 原始 载波 相 乘 ， 得 出 如 图 7-47 下 方 的 波形 ， 
然后 再 通过 低 通 滤波 / 包 络 检 波 将 波形 变 为 如 图 7-48 下 
方 所 示 的 样子 。 再 通过 采样 判决 电路 对 波形 的 电 平 做 
采集 ， 最 后 将 电 平 翻译 成 二 进 制 码 流 ， 完 成 解 调 。 

如 图 7-49 所 示 为 三 相位 、 三 振幅 混合 调制 器 的 键 
控 实现 方式 示意 图 。 

首先 ， 原 始 载 波 使 用 对 应 的 模拟 电路 进行 移 
相 和 变 幅 处 理 ， 生 成 并 行 的 8 路 衍生 载波 信号 。 然 
后 ， 利 用 一 个 能 够 通过 模拟 信号 的 Crossbar 交 换 
电路 来 充当 这 只 手 ， 其 可 以 将 任何 一 路 衍生 载波 


图 7-45 


信号 连通 到 输出 端 去 。 最 后 ， 添 置 一 个 大 脑 的 角 
色 ， 也 就 是 译 码 器 ， 其 可 以 根据 输入 的 信号 ， 比 如 
000/001/010/011/100/101/110/111 中 的 一 组 ， 生 成 控制 
Crossbar 的 输出 信号 ， 将 其 中 一 路 衍生 载波 与 输出 端 
导 通 。 这 就 是 所 谓 “ 键 控 ” 的 含义 ， 即 利用 Crossbar 
中 的 开关 电 键 来 控制 输出 哪 一 路 波形 。 这 样 ， 输 出 端 
的 信号 就 会 跟随 着 输入 的 数字 信号 有 规律 地 脉动 ， 输 
入 的 数字 信号 变化 越 快 ， 输 出 端的 模拟 载波 波形 也 变 
化 越 快 。 但 是 数字 信号 的 变化 速度 不 能 大 于 载波 的 频 
率 ， 否 则 连 一 个 周期 的 波形 都 无 法 完整 输出 了 。 比 
如 ， 如 果 载 波 频率 为 1 Ghz， 使 用 8QAM 调 制 时 ， 比 特 
率 不 可 能 大 于 3Gbit/s。 

这 就 像 切 蛋糕 一 样 ， 不 同 载波 波形 切 出 来 放 到 导 
线 上 传递 。 这 种 方式 就 是 所 谓 “ 键 控 ” 调 制 。 另 外 ， 
由 于 通信 的 起 始点 是 不 可 预测 的 ， 所 以 调制 波 的 波形 
并 不 总 是 从 零点 开始 变化 ， 如 图 7-50 所 示 ， 上 下 两 个 
调制 波 表达 的 含义 其 实 是 一 样 的 。 
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7-47 调 相 及 解 调 过 程 示意 图 (1) 


878 ЕОНИ ЛИ 


BE ВИ Fi — Ri P$ E 


|“ * 采样 | += + 采样 + жн |“ |" 


采样 判决 


01110011 
图 7-48 ” 调 相 及 解 调 过 程 示意 图 (2) 
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图 7-49 三 相位 、 三 振幅 混合 调制 示意 图 


上 述 混合 调制 的 例子 只 是 示意 原理 ， 实 际 中 各 
种 级 别 的 QAM 调 制 都 是 有 一 定 规律 的 ， 选 择 哪些 相 
位 、 哪 些 振幅 都 是 固定 的 ， 以 便 让 调制 和 解 调 可 以 
只 用 简单 的 乘法 器 、 低 通 滤波 器 等 实现 。 大 家 有 兴 
趣 可 以 自行 学 习 ， 这 里 不 再 多 介绍 了 。 


如 图 7-51 所 示 为 4 相位 调制 后 的 波形 及 包 络 线 示 
意图 。 


7.3.2.5 ”频谱 宽度 与 比特 率 


大 家 一 定 会 产生 一 个 疑问 : 载波 频率 越 高 ， 每 
秒 钟 流 过 的 波形 就 越 多 ， 自 然 应 该 比特 率 也 就 越 高 ， 
为 什么 移动 通信 领域 的 800/900 MHz 频段 被 称 为 黄金 
频段 ， 为 什么 不 用 高 频段 比如 60 GHz 的 载波 呢 ? 这 
里 有 两 个 原因 : 一 方面 ， 如 果 每 个 用 户 分 得 的 载波 带 
宽 一 定 ， 那 么 比特 率 跟 载波 频率 其 实 并 没有 直接 的 关 
Ж (怎么 可 能 ? 频率 越 高 速率 应 该 越 快 啊 ! ) ; 另 一 


图 7-50 ”调幅 调 相 其 实 与 所 见 形状 无 关 


大 话 计算 机 一 一 计算 机 系统 底层 架构 原理 极限 剖析 


T T T 


amplitude 
о 


图 7-51 


方面 ， 高 频段 载波 绕 射 能 力 差 且 不 宜 穿 墙 ， 所 以 通信 
运营 商 曾经 为 了 这 个 黄金 频段 的 占有 权 互 拘 得 不 亦 乐 
乎 。 第 一 个 原因 ， 且 听 冬 瓜 哥 慢 慢 道 来 。 

上 文中 图 7-44 里 采用 一 个 或 者 多 个 载波 周期 波形 
表示 对 应 数量 的 位 ， 我 们 将 每 个 恒定 的 波形 段 称 为 符 
号 〈Symbol) ， 或 者 码 元 。 根 据 调 制 方式 的 不 同 ， 
一 个 码 元 /符号 携带 有 多 个 位 的 信息 。 在 第 1 章 中 我 们 
介绍 过 ， 对 于 那些 非 正弦 波 来 说 ， 其 越 杂 乱 无 章 、 跳 
变 得 越 频 繁 ， 底 层 就 需要 更 多 的 高 频 分 量 来 合 加 。 当 
然 ， 这 些 高 频 分 量 并 不 需要 你 去 算出 来 要 县 加 哪 几 个 
正弦 波 上 去 的 ， 而 是 模拟 电路 中 的 电容 等 器 件 天 然 带 
入 的 ， 这 个 过 程 底层 的 秘密 被 傅 里 叶 构建 了 模型 来 描 
述 。 至 于 底层 具体 是 怎么 将 近乎 无 限 的 高 频 分 量 伙 加 
进来 的 ， 这 是 等 待人 类 从 量子 微观 角度 继续 研究 探索 
的 问题 。 既 然 如 此 ， 我 们 回 到 上 文中 的 一 个 遗留 问 
题 ， 就 是 到 底 用 几 个 载波 周期 来 表示 一 个 码 元 。 图 
7-42 中 给 出 了 两 个 例子 ， 分 别 为 用 1 个 和 2 个 载波 周期 
承载 一 个 码 元 。 可 以 看 出 ， 用 一 个 周期 承载 的 话 ， 那 
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么 单位 时 间 内 ， 整 个 线路 上 会 充满 更 加 剧烈 的 波形 变 
化 ， 也 就 是 那些 相位 跃 变 的 结合 点 处 ， 会 充斥 着 大 量 
的 高 频 成 分 ， 才 能 琶 加 出 这 样 一 个 形状 来 。 而 如 果 用 
两 个 载波 周期 承载 一 个 码 元， 一 个 码 元 内 部 的 多 个 载 
波 周期 都 是 纯正 的 正弦 波 ， 无 相位 、 振 幅 上 的 跃 变 ， 
所 以 频谱 线 也 是 单一 的 。 这 样 ， 单 位 时 间 内 ， 一 定 是 
越 少 的 载波 周期 承载 一 个 码 元 的 方式 占用 的 频带 宽度 
要 更 高 ， 极 限 情况 就 是 一 个 载波 周期 承载 一 个 码 元 ， 
如 图 7-52 所 示 。 另 外 ， 如 果 一 个 码 元 波形 承载 的 比特 
数 越 多 ， 比 如 从 8QAM 变 到 64QAM， 前 者 有 8 个 不 同 
波形 ， 后 者 则 有 16 个 不 同 波形 ， 后 者 的 调制 波 将 比 前 
者 更 杂乱 无 章 ， 产 生 跃 变 的 结合 处 更 多 ， 那 么 这 是 不 
是 就 意味 着 其 波形 需要 被 更 多 频段 的 高 频 波 受 加 出 来 
%? 并 非 如 此 。 从 8QAM 到 16QAM， 虽 然后 者 的 波形 
数量 增加 了 ， 但 是 每 个 波形 之 间 的 差别 也 变 小 了 ， 这 
就 意味 着 ， 从 一 个 波形 边沿 跃 变 到 另 一 个 波形 时 的 陡 
峭 程 度 也 变 低 了 ， 所 以 其 对 频谱 成 分 的 影响 还 得 具体 
分 析 ， 详 见 下 文 。 
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那么 ， 如 果 载 波 频率 增加 ， 而 码 元 周期 数 不 变 、 
调制 方式 也 不 变 的 话 ， 自 然 的 ， 单 位 时 间 内 流 过 的 码 
元 数量 增加 ， 那 么 单位 时 间 流 过 的 比特 数 也 随 之 增 
加 ， 比 特 率 也 就 增加 了 。 相 应 地 ， 由 于 单位 时 间 内 流 
过 的 码 元 增加 了 ， 那 么 波形 的 变化 剧烈 程度 也 就 增加 
了 ， 信 号 占用 的 信道 频带 宽度 自然 也 就 增加 了 。 

调制 波 的 频谱 都 是 以 载波 频率 点 为 中 心 往 两 边 
延展 的 ， 调 制 到 载波 上 的 信息 会 导致 载波 波形 发 生 各 
种 形式 的 电 平 跃 变 〈 相 比 单 一 正弦 波 的 电 平 变化 而 
言 ) 。 这 些 跃 变 ， 是 底层 电路 引入 了 高 于 或 者 低 于 载 
波 频 率 的 其 他 谐 波 成 分 码 加 而 成 的 ， 这 也 是 频谱 会 以 
载 频频 点 为 中 心 往 高 低 两 个 方向 延展 的 原因 。 前 文中 
说 过 ， 目 前 没有 人 能 够 从 底层 解释 说 明 电 路 是 如 何 引 
入 这 些 成 分 的 ， 不 过 你 可 以 去 研究 一 下 。 波 形 从 平缓 
跃 变 到 陡峭 会 引入 高 于 载波 频率 的 杂 波 成 分 ， 而 从 陡 
峭 跃 变 到 平缓 则 会 引入 低 于 载波 频率 的 杂 波 成 分 ， 如 
果 陡 峭 程度 不 变 但 是 相位 跃 变 ， 也 会 引入 高 频 成 分 。 
如 图 7-53 给 出 了 对 应 的 示意 图 。 只 要 波形 相 比 上 一 个 
周期 的 Sin/Cos 曲 线 而 言 变 得 更 加 裙 皱 ， 就 得 引入 高 
频 成 分 ， 同 理 波形 如 果 相 对 变 得 更 加 平缓 就 得 引入 低 
频 成 分 。 不 过 从 图 中 也 可 以 发 现 一 个 明显 的 规律 ， 那 
就 是 被 引入 的 高 频 成 分 的 量 远大 于 低频 成 分 的 量 ， 因 
为 相位 跃 变 一 定 引 入 高 频 成 分 ， 只 有 最 右 侧 的 场景 引 
入 低频 成 分 。 也 就 是 说 ， 假 设 载 频 为 1000 MHz, Ж 
用 16QAM 调 制 ， 比 特 率 100MB/s， 最 终 的 调制 波 的 
频谱 可 能 会 是 990 MHz 一 1090 MHz， 而 并 不 可 能 是 
950 MHz—1050 MHz 这 种 按照 载 频 为 中 心 对 称 的 频带 
分 布 。 

如 果 采 用 更 高 的 调制 密度 比如 64QAM， 则 会 引 
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入 更 多 的 振幅 、 相 位 级 数 ， 也 就 在 波形 上 引入 了 更 多 
的 跃 变 点 。 正 如 上 文 所 述 ， 这 并 不 意味 着 其 也 一 并 
引入 相应 倍数 的 更 多 高 /低频 段 的 分 量 。 如 图 7-54 所 
示 ， 左 侧 为 低调 制 密度 时 的 波形 组 成 的 调制 波 ， 右 侧 
为 高 调制 密度 时 波形 组 成 的 调制 波 。 由 于 前 者 波形 种 
类 较 少 ， 波 形 之 间 的 振幅 、 相 位 梯度 级 数 少 ， 那 么 波 
形 接合 处 基本 都 是 大 幅 跃 变 ， 后 者 由 于 波形 多 ， 有 更 
多 的 级 数 ， 波 形 间 的 结合 处 跃 变 幅度 小 的 概率 更 大 ， 
但 是 也 不 排除 有 大 幅 跃 变 。 图 中 A 点 比 A” 或 X 点 、B 
点 比 B” 点 的 跃 变 幅度 更 大 ; 而 C 和 C” 点 的 跃 变 幅度 
相同 。 

那么 ， 是 不 是 结论 就 是 ， 高 调制 密度 的 调制 波 相 
对 而 言 比 低调 制 密度 的 波形 的 频谱 宽度 更 窄 呢 ? 不 能 
这 么 讲 。 试 想 一 下 ， 左 侧 图 中 虽然 各 个 波形 之 间 梯 度 
较 大 ， 但 是 总 体 波形 数量 少 ， 在 相同 的 载波 频率 下 ， 
如 每 秒 流 过 100 M 个 波形 ， 左 侧 图 中 可 选 波形 数量 
少 ， 那 么 ， 梯 度 相差 没 那么 大 的 两 个 波形 相 邻 出 现 的 
概率 ， 反 而 要 比 右 侧 波形 大 。 反 过 来 说 ， 右 侧 波形 更 
多 时 候 是 梯度 相差 较 大 的 两 个 波 相 邻 出 现 了 。 那 么 ， 
还 真 不 好 说 到 底 哪个 波形 最 终 频谱 更 宽 。 于 是 ， 为 了 
量化 ， 冬 瓜 哥 建立 了 一 个 示意 模型 来 考察 。 

如 图 7-55 所 示 ， 我 们 假设 最 大 跃 变 幅度 为 7， 将 
这 个 幅度 分 级 为 2 级 、3 级 、4 级 和 8 级 ， 遍 历 出 所 有 可 
能 的 跃 变 组 合 〈 任 意 两 个 层级 之 间 都 可 以 相 邻 ， 图 中 
红色 箭头 线 所 示 ) ， 然 后 算出 每 个 情况 下 跃 变 的 幅度 
值 ， 将 所 有 可 能 的 情况 下 的 跃 变 幅 值 求 和 ， 除 以 所 有 
组 合 的 数量 〈 注 意 ， 每 个 层级 可 以 与 自身 相 邻 ， 比 如 
相 邻 的 两 个 相同 的 波形 ， 此 种 状态 也 应 算 入 ， 此 时 跃 
变 幅 度 为 0) ， 发 现 幅度 不 管 分 为 几 个 层级 ， 最 终 的 
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平均 值 都 相同 。 结 论 很 明显 ， 不 管 是 什么 样 的 调制 方 
式 ， 分 了 多 少 层级 ， 其 调制 波形 的 平均 跃 变 幅 度 都 相 
同 ， 那 就 意味 着 频谱 宽度 也 相同 。 

人 们 将 频带 宽度 简称 带宽 ， 也 正 是 这 个 词 导 致 了 
大 量 的 误导 。 因 为 常规 思维 下 人 们 会 认为 所 谓 带 宽 就 
是 每 秒 比 特 率 ， 换 算 成 每 秒 字 节 数 〈 虽 然 下 文中 你 会 
看 到 比特 率 与 频谱 宽度 的 确 有 着 奇妙 的 关系 ) ， 甚 至 
在 相关 领域 专业 人 士 之 中 也 会 产生 混淆 ， 所 以 下 文中 
统一 用 频 宽 这 个 词 。 那 么 ， 我 们 至 此 有 个 初步 结论 : 
载波 频率 越 大 ， 码 元 周期 数 越 少 ， 则 占用 的 信道 频 
宽 也 就 越 大 。 那 么 是 否 可 以 先 写 出 一 个 初步 的 关系 式 
Ж: 信道 频 宽 =F (载波 频率 / 码 元 周期 数 ) =F (H 
流 过 的 码 元 数量 ) =F( 码 速 ) =F ОЖ) =F〈 比 特 
率 / 码 元 比特 数 ) 。 

历史 上 ， 奈 奎 斯 特 求 出 了 F，F =x/2。 也 就 是 
信道 频 宽 = 码 率 /2， 或 者 说 信道 比特 率 =2X 信道 频 宽 
X 每 码 元 比特 数 。 如 此 神奇 的 逻辑 ! 信号 占用 的 频 
谱 宽度 ， 只 与 信号 的 码 率 有 关 ， 也 就 是 与 每 秒 流 过 的 
码 元 数量 有 关 。 注 意 ， 一 个 码 元 可 能 由 多 个 载波 周期 
组 成 。 

或 者 说 ， 信 道 的 比特 率 竟然 只 与 其 占用 的 频带 宽 
度 以 及 每 个 码 元 表示 的 比特 数 相关 。 那 就 是 说 ， 要 想 
增加 信道 的 比特 率 ， 或 者 俗称 网 速 ， 要 么 增加 信道 的 
带宽 ， 要 么 增加 每 个 码 元 表示 的 比特 数 〈 用 更 高 阶 的 
调制 方式 ) ， 或 者 这 两 个 手段 一 起 上 。 

按照 感性 认识 来 讲 ， 频 率 越 高 ， 速 度 越 快 才 对 。 
上 述 关 系 式 也 意味 着 ， 网 速 在 理论 上 竟然 与 载波 频率 
并 无 直接 关系 ! 也 就 是 说 ， 你 可 以 用 一 个 很 低频 率 的 
载波 比如 1 Hz 来 实现 100Mbit/s 的 比特 率 。 这 看 上 去 
好 像 是 天 方 夜 谭 ， 载 波 每 秒 才 流 过 1 个 周期 的 波形 ， 
怎么 可 能 其 携带 信息 的 比特 率 达到 每 秒 一 万 万 位 ? 根 
据 上 面 公式 ， 你 可 以 把 单 码 元 能 够 表示 的 比特 数 加 到 
一 万 万 位 啊 ! 也 就 是 增加 调制 密度 ， 虽 然 每 秒 只 传 
递 一 个 波形 ， 但 是 这 单个 波形 就 能 表示 100Mbit 的 信 
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息 ， 这 不 就 达到 100Mbit/s 了 么 ? 也 就 是 说 ， 要 将 振 
幅 、 相 位 等 做 更 精细 的 划分 ， 划 分 为 《100 M) ?个 层 
级 ， 所 以 这 在 实际 中 已 经 不 可 实现 了 ， 因 为 信道 噪声 
会 轻易 干扰 如 此 精细 的 振幅 差 和 相位 差 。 这 样 ， 载 波 
频率 1Hz， 每 码 元 周期 数 为 1， 则 码 率 =1/1=1Hz/s， 该 
调制 波 频 宽 为 0.5Hz。 这 个 例子 虽然 并 不 合适 和 不 实 
际 ， 但 是 不 妨碍 理解 其 本 质 。 实 际 上 ， 信 道 的 最 终 比 
特 率 有 一 个 被 称 为 香农 容量 的 理论 极限 ， 大 家 可 以 自 
行 了 解 。 


有 个 地 方 可 以 思考 一 下 。 假 设 如 果 用 一 个 单一 
频 点 的 纯正 弦 波 来 表示 1 和 0 数字 信号 ， 波 峰 表 示 
1， 波 谷 表示 0。 其 频率 为 100 MHz， 那 么 其 用 来 传 
递 重复 交替 的 1 和 0 时 ， 比 特 率 为 100Mbitls。 这 里 犯 
了 一 个 理解 上 的 错误 ， 该 正弦 波 只 能 传递 交替 的 1 
和 0， 一 成 不 变 ， 这 并 不 能 称 为 信息 ， 正 因 如 此 ， 
其 频 宽 为 0 Hz， 能 够 承载 的 比特 率 也 为 0 bit/s. А/Е/ 
IO/U、a/o/e/i/wu/yu 的 发 音 口 形 简单 ， 不 需要 去 头 
的 辅助 ， 所 以 它们 称 为 元 音 ， 元 音声 波 的 频谱 窄 ， 
因为 其 声波 没有 跃 变 。 但 是 相对 而 言 ， 诸 如 T/W/ 
Q 等 这 些 发 音 ， 需要 舌头 的 辅助 ， 将 气体 阻碍 然后 
瞬间 释放 出 来 ， 其 改变 了 元 音 较为 单一 的 频率 ， 引 
入 了 更 多 高 频 成 分 ， 才 能 让 声波 产生 跃 变 ， 这 与 正 
弦 波 到 方 波 的 过 程 是 类 似 的 。 然 而 ， 携 带 更 多 信息 
的 却 是 辅音 而 不 是 元 音 ， 正 是 因为 引入 了 更 多 的 变 
化 ， 所 以 辅音 才能 表示 更 多 信息 。 所 以 ， 在 一 个 调 
制 波 中 ， 高 频段 才 携带 有 更 多 信息 。 


该 公式 揭示 的 道理 就 是 ， 在 调制 方式 一 定时 ， 要 
想 达 到 某 个 比特 率 ， 就 需要 占用 对 应 的 频谱 宽度 ， 而 
不 管 该 频谱 起 始 于 哪个 频 点 。 为 了 达到 对 应 的 频谱 快 
递 ， 可 以 任意 调整 码 元 周期 数 和 载波 频率 这 两 个 参数 ， 
或 者 说 调整 码 率 这 一 个 参数 ， 码 率 /2 就 是 频谱 宽度 。 


提示 > 


比特 率 /频谱 宽度 = 频谱 效率 。 实 际 中 ， 频 谱 效 
率 远 达 不 到 理论 值 。 高 阶 调制 虽然 是 个 以 一 当 十 的 
很 划算 的 提升 频谱 效率 的 方式 ， 但 是 信道 上 的 干扰 
实在 是 太 严重 了 ， 很 多 时 候 只 能 运行 在 低 阶 调制 级 
别 上 。 一 般 而 言 ， 公 共通 信 系 统 如 果 运 行 在 低频 
段 ， 比 如 50 kHz 中 心 点 频段 ， 那 么 每 个 接 入 设备 获 
得 的 带宽 就 捉襟见肘 ， 比 如 每 个 接 入 点 分 配 1 kHz 
带宽 ， 那 么 在 50 kHz 5 kHz 频段 内 仅 可 容纳 10 个 接 
入 点 ; 但 是 公共 通信 系统 如 果 运 行 在 比如 50 GHz 频 
段 ， 带 宽 就 宽松 多 了 ， 比 如 每 个 接 入 点 分 配 10 MHz 
带宽 ， 在 50 GHz+1 GHz 这 段 带宽 内 ， 就 可 以 容纳 
200 个 接 入 点 。 比 例 都 是 50:1， 但 是 后 者 显然 接 入 
点 多 了 ， 每 个 接 入 点 获得 的 带宽 也 高 了 ， 这 样 ， 后 
者 就 可 以 利用 更 低 阶 的 调制 方式 获得 更 好 质量 、 更 
低 出 错 率 ， 或 者 用 相同 阶 数 的 调制 获得 更 高 的 比特 
率 。 然 而 ， 频 率 越 高 ， 电 磁 波 的 覆盖 率 也 就 越 低 ， 
电磁 波 越 容易 被 阻挡 ， 比 如 可 见 光波 的 频率 很 高 ， 
所 以 可 见 光波 无 法 穿 墙 ， 或 者 说 也 可 以 微弱 穿 墙 ， 
但 是 你 的 眼睛 检测 不 到 了 。 低 频段 由 于 波长 长 ， 绕 
射 能 力 好 ， 容 易 穿越 城市 建筑 ， 但 是 带宽 稍 显 拥 
挤 。 所 以 这 些 频段 的 选择 也 需要 根据 不 同 的 业务 类 
型 和 场景 而 定 。 


明白 了 上 述 关系 ， 再 回 过 头 来 看 。 对 于 公共 无 
线 通 信 系统 比如 手机 而 言 ， 所 有 人 共享 同一 个 真空 来 
通信 ， 这 样 每 个 人 就 得 独占 某 个 频段 来 通信 ， 否 则 如 
果 有 人 用 了 相同 频段 ， 就 会 相互 干扰 (当然 可 以 通过 
一 些 上 层 手段 来 复 用 ， 这 里 暂且 不 表 )〉 。 所 以 运营 商 
会 给 每 个 手机 用 户 分 配 一 定 的 频带 宽度 用 于 通信 ， 由 
于 有 大 量 的 手机 用 户 ， 所 以 频带 只 能 被 切割 成 一 段 一 
段 地 分 配给 用 户 ， 每 个 用 户 独占 各 自 的 频带 与 基站 通 
信 。 这 样 ， 每 个 频带 的 宽度 就 被 定 死 了 ， 谁 也 不 能 超 
出 ， 谁 也 没有 特权 多 占用 一 些 频段 ， 因 为 你 旁边 的 频 
带 可 能 正在 被 他 人 占用 。 由 于 信道 载波 频率 也 是 定 死 
的 (每 秒 流 过 的 码 元 波形 数 即 码 率 也 定 死 了 ) ， 如 果 
调制 方式 一 定 ， 那 么 ， 根 据 上 面 的 奈 奎 斯 特 公式 ， 必 
然 可 以 算出 该 信道 当前 的 码 元 周期 数 应 该 是 多 少 。 

实际 的 通信 系统 普遍 使 用 多 载波 多 频段 同时 传递 
数据 。 比 如 ， 80 MHz 一 120 MHz 这 40 MHz 的 频 宽 可 以 
划分 为 110 MHz 中 心 载 频 +20 MHz 频 宽 和 90 MHz 中 心 
载 频 +20 MHz 频 宽 这 两 个 独立 的 子 信道 ， 而 也 可 以 划分 
为 以 100 MHz 中 心 载波 频率 +40 MHz 频 宽 的 单个 信道 。 
两 者 看 似 频 宽 相同 ， 比 特 率 应 该 也 相同 ， 但 是 如 果 考 虑 
实际 信道 噪声 的 话 ， 比 如 附近 有 个 90 MHz 左右 的 强 干扰 
源 ， 如 果 采 用 两 个 独立 信道 的 话 ，90 MHz 的 信道 质量 很 
差 ， 那 就 可 以 不 用 它 。 或 者 通过 降低 调制 密度 、 增 加 码 
元 周期 数 等 方式 来 将 调制 波 的 频谱 宽度 降低 一 些 ， 或 
许 能 碰巧 避 开 干扰 源 的 频段 ， 起 码 降低 出 错 概率 ， 那 
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自然 比特 率 也 降低 了 。 而 110 MHz 载 频 依然 全 速 运行 不 
受 影响 。 如 果 这 两 个 频段 合 为 一 体 的 话 ， 所 有 数据 只 
能 流入 该 信道 ， 遭 受到 干扰 ， 每 个 上 层 的 数据 帧 可 能 
都 会 错 一 定数 量 的 比特 ， 这 样 上 层 的 网 络 协议 栈 就 总 
是 重 传 数据 包 ， 导 致 链 路 层 最 终 中 断 。 

当然 ， 该 公式 并 没有 规定 哪个 量 必须 恒定 不 变 。 
而 是 意味 着 你 可 以 任意 改变 载波 频率 、 码 元 周期 数 、 
调制 方式 〈 码 元 比特 数 ) 。 对 于 那些 频 宽 不 受 限 的 场 
景 ， 比 如 有 线 专线 传输 ， 那 就 不 用 考虑 频 宽 ， 因 为 
此 时 信道 上 全 部 频 宽 都 归 通 信 双 方 所 有 ， 可 以 同时 提 
升 上 述 三 个 参数 。 而 真空 电磁 波 环境 只 能 是 大 家 共享 
的 ， 因 为 宇宙 只 有 一 个 ， 或 许 吧 。 


传递 电信 号 的 物理 介质 天 生 不 适合 传递 高 频 
信号 ， 它 是 个 天 然 的 低 通 滤波 器 ， 因 为 铜 线 内 部 是 
自由 电子 的 海洋 ， 天 生 具 有 电容 特性 ， 电 流 流 过 电 
容 就 会 被 低 通 。 当 频率 过 高 时 ， 导 线 的 电容 会 组 
冲 电 流 ， 导 致电 压 提升 放 缓 ， 信 号 不 能 与 发 送 端 同 
步 ， 相 位 拖 后 ， 振 幅 也 被 削弱 了 ， 导 致 接收 端 无 法 
辨识 。 而 无 线 电波 的 传递 介质 是 空间 场 ， 这 似乎 已 
经 是 世界 最 底层 的 介质 了 ， 其 并 非 利用 微观 粒子 的 
移动 、 积 压 一 定量 (电压 ) 来 表示 信号 ， 所 以 很 高 
效 ， 但 是 依然 会 遇 到 比如 大 气 对 电磁 波 的 吸收 等 问 
题 。 人 类 还 没有 研究 透彻 空间 场 是 什么 ， 因 为 人 类 
自身 也 是 一 堆 空间 场 波 的 登 加 体 ， 可 能 是 “只 缘 身 
在 此 山中 ”。 唯 一 可 以 媲美 空间 场 的 信号 传输 介质 
是 光纤 。 早 期 ， 人 们 直接 将 数字 信号 的 电压 输送 到 
光电 转换 电路 ， 转 成 光波 的 强 弱 (振幅) ， 这 样 ， 
光 强 可 以 随 着 数字 信号 同步 变化 ; 后 来 ， 人 们 也 加 
入 了 一 些 高 阶 调制 ， 比 如 PAM4 技 术 ， 用 4 个 光 强 表 
示 2 位 ， 这 样 调制 密度 就 提升 了 ， 比 特 率 也 就 可 以 翻 
翻 。 同 时 ， 人 们 也 发 明 出 能 够 对 光波 进行 调幅 、 调 
相 、 调 频 的 光 调 制 模块 ， 俗 称 相干 光 模 块 ， 但 是 体 
积 大 、 成 本 很 高 。 也 有 人 先 把 数字 信号 调制 成 比如 
64QAM ~ 1024QAM 的 模拟 电信 号 ， 然 后 将 其 转换 为 
光 的 强 弱 ， 也 就 是 让 光 强 随 着 电压 同步 变化 ， 所 输 
出 的 光 信 号 被 俗称 为 模拟 光 信 号 ， 表 示 随 着 模拟 电 
信号 同步 变化 的 光 信号 。 而 上 文 的 PAM4 技 术 则 是 数 
字 光 信号 ， 表 示 光 信号 随 着 数字 电信 号 同步 变化 。 

既然 使 用 无 线 通信 ， 加 上 高 阶 调制 ， 可 以 达到 
很 高 的 比特 率 ， 比 如 5G 无 线 通信 时 代 ， 理 论 比特 
率 可 达 10Gbit/s ( 10Gbit/s=1Gb/s) 。 这 已 经 相当 于 
万 兆 以 太 网 的 速率 了 。 看 来 ， 模 拟 信号 + 高 阶 调制 
潜力 无 限 ， 那 为 什么 不 在 有 线 网 络 ( 比如 以 太 网 铀 
线 缆 ) 上 也 用 这 种 方式 来 传 信 号 呢 ? 铜 线 中 的 电磁 
环境 比 无 线 电 环境 要 好 吧 ? 主要 原因 是 功 耗 过 大 ， 
高 阶 调制 会 耗费 额外 的 电路 功 耗 ， 当 然 ， 成 本 也 是 
一 个 问题 。 


3 可 大话 计 算 机 一 -计算 机 系统 底层 架构 原理 极限 剖析 


7.3.2.6 ”数字 信号 处 理 与 数字 滤波 


对 于 数字 信和 号 的 方 波 ， 当 其 被 传送 到 信道 链 路 
上 之 后 ， 到 达 接 收 方 之 后 的 波形 可 谓 东 倒 西 看 ， 因 为 
经 历 了 噪声 嘲 杂 的 信道 ， 这 些 波形 会 被 到 加 入 一 些 凌 
乱 的 波形 ， 到 达 接收 方 之 后 ， 会 导致 无 法 分 辨 。 由 于 
信道 可 以 被 看 作 一 个 电容 ， 拥 有 容纳 电荷 的 能 力 ， 所 


以 其 对 高 频 分 量 的 衰减 程度 相 比 低频 分 量 更 大 。 如 图 
7-56 左 侧 图 所 示 ， 当 方 波 经 过 信道 传输 之 后 ， 相 当 于 
经 历 了 一 场 电容 滤波 ， 到 达 接 收 端的 信号 〈 蓝 色 ) 的 
棱角 已 经 不 再 分 明 ， 这 样 势必 会 影响 接收 方 的 判决 电 
路 的 判决 结果 ， 可 能 会 判决 错误 导致 误 码 。 
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7-56 发送 方 使 用 预 加 重 来 对 波形 进行 整形 


为 了 解决 该 问题 ， 人 们 在 发 送 方 使 用 特殊 的 电 
路 ， 向 待 发 送 波形 中 县 加 一 个 特殊 设计 的 波形 ， 让 
陡峭 的 地 方 变 得 更 高 一 些 ， 也 就 是 振幅 变 得 更 大 一 
些 。 这 样 ， 经 过 信道 的 衰减 之 后 ， 信 和 号 波形 依然 可 
以 保持 一 定 的 棱角 ， 如 图 7-56 中 间 部 分 所 示 。 这 种 
技术 被 称 为 预 加 重 (Pre-Empasis) 。 相 反 ， 如 果 把 
平缓 地 方 的 振幅 削弱 一 下 ， 反 衬 出 陡峭 部 分 的 高 振 
幅 ， 这 种 技术 则 叫 作 去 加 重 (De-Empasis) ， 如 图 
7-56 右 侧 所 示 。 

对 波形 的 整形 可 以 使 用 模拟 电路 实现 ， 一 些 低 
频率 的 波形 也 可 以 使 用 数字 方式 来 实现 。 比 如 ， 先 对 
整个 波形 进行 采样 并 将 样 点 量化 成 二 进 制 值 ， 然 后 
根据 算法 ， 将 需要 振幅 加 强 的 位 置 的 样 点 值 加 上 / 减 
去 ， 或 者 乘 以 一 个 预 设 好 的 或 者 根据 实际 环境 动态 变 
化 的 二 进 制 值 ， 就 完成 了 信号 的 整形 ， 然 后 再 将 这 些 
变更 过 的 样 点 值 输入 到 DAC 中 转换 成 对 应 的 模拟 信 
号 发 送出 去 。 由 于 采样 点 非常 多 ， 对 这 些 样 点 进行 上 
述 乘法 或 者 加 法 计算 就 需要 足够 快 ， 起 码 要 跟 上 采样 
速率 ， 也 就 是 每 采 到 一 个 样 点 ， 针 对 上 一 个 样 点 的 计 
算 过 程 就 必须 完成 (如 果 该 样 点 需要 被 整形 的 话 〉。 
但 是 这 样 比较 不 好 控制 ， 而 且 容易 导致 不 稳定 ， 因 为 
运算 电路 可 能 出 现 性 能 拌 动 。 为 此 ， 一 般 是 现 将 整形 
前 的 量化 值 放 入 一 个 缓冲 ， 然 后 运算 电路 对 这 些 量化 
值 进 行 批量 并 行 运算 ， 并 行 输出 到 输出 缓冲 ，DAC 
再 从 输出 缓冲 中 按照 稳定 的 速率 输出 模拟 波形 。 这 样 
做 会 对 信号 产生 一 个 整体 时 延 ， 但 是 对 带宽 速率 并 没 
有 影响 。 负 责 运 算 这 些 样 点 值 的 CPU 必须 足够 精简 ， 
位 宽 足够 大 ， 并 行 单元 足够 多 ， 这 样 才能 跟 得 上 信号 
的 速度 。 所 以 人 们 设计 出 了 专门 用 于 数字 信号 处 理 领 
域 的 专用 CPU， 俗 称 数字 信号 处 理 器 (Digital Signal 
Processor, DSP) 。 利 用 DSP 对 采样 量化 后 的 波形 进 
行 整形 计算 的 过 程 称 为 数字 滤波 。 

数字 滤波 有 多 种 ， 有 些 是 人 们 已 经 总 结 好 的 固 
定 场景 的 算法 ， 并 提供 对 应 的 代码 。 有 些 则 是 完全 自 
定义 的 整形 ， 需 要 自己 编写 代码 。 上 述 的 预 加 重 处 理 
是 让 波形 中 某 些 地 方 更 加 尖锐 ,或 者 有 些 场景 是 需要 
将 波形 处 理 得 更 加 平滑 。 比 如 有 一 段 波形 的 样 点 量化 
值 为 12345678987654321， 有 一 种 算法 是 这 样 去 对 其 


进行 平滑 处 理 的 : 取 前 5 个 数值 12345， 计 算 其 平均 值 
=3， 将 该 值 奉 换 第 一 个 数值 1， 再 取 23456 计 算 平 均 
值 =4， 将 其 替换 第 二 个 数值 2， 取 34567 计 算 平 均值 为 
5， 将 其 替换 第 三 个 数值 3， 以 此 类 推 ， 计 算 之 后 的 量 
化 值 变 为 3 45677.67.87.676543。 将 其 做 成 波形 
图 ， 就 可 以 看 出 其 平滑 效果 ， 如 图 7-57 所 示 。 
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图 7-57 ”数字 平滑 滤波 后 效果 

还 有 一 类 更 加 精细 的 波形 整形 方式 ， 其 目的 是 为 
了 消除 码 间 串扰 (Inter Symbol Interfere, ISI) 。 比 如 
101010 这 串 码 流 ， 由 于 传输 信道 的 低 通 效应 〈 对 高 频 
信和 号 的 衰减 )》， 导 致 1 和 0 之 间 的 跳 变 不 能 瞬间 完成 ， 
波形 变 得 平滑 。 等 价 于 1 的 高 电 平 会 在 线路 上 产生 残 
留 ， 无 法 瞬间 退却 ， 而 此 时 0 的 低 电 平 被 之 前 的 1 的 残 
留 量 抵消 了 一 部 分 ， 变 得 不 低 了 ， 稍 高 了 一 些 ， 这 会 
影响 接收 端的 采样 值 ， 产 生 干 扰 ， 导 致 辨识 度 降低 。 
为 了 对 收 到 的 波形 进行 整形 处 理 ， 人 们 设计 了 一 种 称 
为 均衡 器 的 电路 ， 该 电路 可 以 根据 码 流 的 历史 位 判断 
出 ， 下 一 个 位 应 该 如 何 整 形 才能 消除 历史 位 残留 的 电 
平 的 影响 ， 最 终 让 波形 变 得 更 易 辨 识 。 其 基本 原理 是 
在 一 个 码 元 波形 的 不 同 处 ， 根 据 历史 位 波形 的 影响 程 
度 ， 计 算出 该 处 需要 抬 高 或 者 降低 多 少 ， 并 将 收 到 的 
信和 号 幅 值 与 计算 出 的 放大 因子 进行 相 乘 处 理 。 对 于 低 
速 信号 ， 它 可 以 用 DSP 来 进行 数字 处 理 ， 再 还 原 成 模 
拟 信 号 ;， 对 于 高 速 信 号 ， 由 于 数字 电路 在 功 耗 和 面积 
被 限定 的 情况 下 已 经 无 法 跟 得 上 信号 的 速度 ， 所 以 需 
要 用 模拟 电路 来 搭建 均衡 器 ， 比 如 模拟 乘法 器 等 ， 模 
拟 器 件 的 输出 值 是 连续 变化 的 ， 所 以 总 能 跟 得 上 信和 号 
的 速度 。 


物理 层 所 有 的 上 述 这 些 信 源 编 解码 、 加 解 扰 、 信 
道 编 解码 、 调 制 解 调 、 滤 波 /均衡 等 操作 ， 都 由 各 自 的 
电路 模块 负责 ， 并 通过 内 部 总 线 、 寄 存 器 一 寄存 器 接 
口 或 者 某 种 总 线 ， 相 互 传递 数据 。 所 有 负责 底层 物理 
层 的 电路 模块 ， 被 统称 为 PHY (Physical 的 缩写 ) 。 
俗称 某 个 物理 接口 的 PHY， 就 是 指 上 述 这 些 东 西 的 组 
合 ， 比 如 以 太 网 PHY、SAS PHY, WiFi PHY, USB 
PHY、PCIE PHY 等 。 


7.3.3 以太 网 一 一 高 速 通用 非 访 存 式 后 端 
外 部 网 络 


大 浪 淘 沙 ， 历 史上 曾经 出 现 过 多 种 计算 机 网 络 ， 
然而 人 们 经 常 使 用 而 被 保留 下 来 的 ， 也 只 剩 了 几 种 。 
其 中 ， 被 广泛 用 在 日 常 通用 的 计算 机 互联 场景 下 的 ， 
非 以 太 网 莫 属 。 当 然 ， 有 些 特殊 场景 下 ， 比 如 一 些 对 
传输 带宽 、 时 延 要 求 很 苛刻 的 场景 下 ， 计 算 机 之 间 的 
互联 可 能 会 使 用 其 他 网 络 ， 比 如 Infiniband、PCIE 等 。 

以 太 网 在 20 世 纪 七 十 年 代 被 设计 出 来 ， 经 历 了 
10Mbit 以 太 网 、100Mbit 快 速 以 太 网 、1Gbit 千 兆 以 太 
网 、10Gbit 万 兆 以 太 网 、25Gbit 以 太 网 ， 一 直到 目前 
最 新 的 100Gbit 以 太 网 阶段 ， 以 及 将 来 的 400Gbit 以 太 
网 。 第 一 代 以 太 网 ， 速 率 10Mbit/s， 采 用 共享 总 线 组 
网 方式 ， 其 并 没有 采用 集中 的 仲裁 器 来 仲裁 ， 而 是 采 
用 分 布 式 各 自 自助 仲裁 ， 所 有 节点 采用 载波 侦 听 /冲突 
检测 (CSMA/CD) 方式 来 发 送 数据 。 当 总 线 上 有 人 
发 送 数据 时 ， 其 他 人 不 能 发 送 数据 ， 当 总 线 空闲 时 ， 
其 他 节点 开始 发 送 数据 ， 但 是 一 旦 多 个 节点 同时 发 送 
数据 ， 那 么 这 些 数据 信号 会 相互 琶 加 在 总 线 上 导致 错 
误 ， 产 生 冲 突 。 为 了 解决 这 个 问题 ， 所 有 节点 在 向 总 
线 上 发 送 数据 的 同时 ， 也 同时 将 总 线 上 的 信号 接收 进 
来 与 之 前 自己 发 送 的 数据 进行 对 比 ， 如 果 发 现 不 一 
样 ， 证 明 有 其 他 人 发 送 的 数据 信号 琶 加 了 进来 ， 那 么 
本 次 发 送 过 程 宣告 失败 ， 所 有 节点 就 先 静默 一 段 固定 
的 时 间 ， 然 后 再 次 发 送 。 由 于 每 个 节点 开始 静默 的 时 
间 点 有 很 大 概率 是 不 一 样 的 ， 所 以 最 终 有 很 大 概率 某 
个 节点 先 开 始 发 送 数据 ， 这 样 其 他 人 就 会 侦 听 到 总 线 
已 经 被 人 占 了 ， 就 不 会 发 送 数据 。 抢 到 总 线 发 送 数据 
的 节点 会 感知 到 总 线 上 此 时 的 数据 的 确 与 发 送 的 数据 
相同 ， 则 表明 自己 成 功 抢 到 了 总 线 ， 继 续 发 送 数据 。 

但 是 随 着 接 入 节点 的 增多 ， 传 送 数据 量 的 增加 ， 
CSMA/CD 机 制 会 极 大 影响 效率 。 后 来 ， 百 兆 以 太 网 
抛弃 了 共享 总 线 ， 改 成 了 使 用 交换 电路 点 对 点 交换 方 
式 来 相互 传递 数据 ， 并 且 接 收 和 发 送 采 用 两 套 独立 的 
线路 ， 每 个 节点 可 以 同一 时 刻 既 发 送 又 接收 数据 。 再 
往 后 就 是 速率 不 断 提 升 。 我 们 这 里 也 不 对 第 一 代 以 太 
网 做 过 多 介绍 了 ， 默 认 介绍 交换 式 以 太 网 。 

对 于 以 太 网 而 言 ， 它 只 是 个 用 来 传输 数据 的 网 
络 ， 并 不 关心 也 没有 定义 用 户 可 以 /不 可 以 传 哪 类 数 
据 。 数 据 只 要 是 比特 流 ， 都 能 传 。 所 以 对 于 以 太 网 而 
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言 ， 它 并 没有 应 用 层 、 表 示 层 和 会 话 层 这 三 层 与 上 层 
应 用 相关 的 层次 。 我 们 从 网 络 层 开始 介绍 。 另 外 ， 由 
于 以 太 网 的 速率 低 、 时 延 高 ， 所 以 人 们 并 不 使 用 以 
太 网 来 像 QPI 网 那样 直接 传送 CPU 的 地 址 访问 请 求 ， 
而 只 用 它 来 传递 其 他 数据 ， 所 以 我 们 称 之 为 非 访 存 
网 络 。 


7.3.3.1 以 太 网 的 网 络 层 


还 记得 吗 ? 网 络 层 就 是 定义 该 网 络 的 地 址 格式 、 
拓扑 方式 等 。 连 接 到 以 太 网 的 每 个 节点 ， 都 必须 具有 
一 个 48 位 的 MAC (Media Access Control， 下 文 会 解 
Ж) 地 址 ， 该 MAC 地 址 保存 在 以 太 网 IO 控制 器 内 部 
的 Flash/ROM 中 永久 不 丢失 ， 每 个 以 太 网 帧 都 必须 携 
带 源 和 目标 MAC 地 址 ， 以 便 让 交换 机 知道 该 帧 是 谁 发 
来 的 、 要 给 谁 。 所 以 ， 世 界 上 的 每 块 以 太 网 卡 的 MAC 
地 址 都 是 唯一 的 。 网 卡 生产 商会 向 国际 业界 组 织 申 请 
对 应 的 MAC 地 址 段 。 一 般 来 讲 ， 业 界 的 管理 机 构 会 分 
配 高 24 位 给 某 个 厂商 ， 该 厂商 生产 的 任何 一 块 以 太 网 
卡 的 MAC 地 址 的 高 24 位 都 必须 为 该 地 址 ， 厂 商 自 行 决 
定 每 块 网 卡 MAC 地 址 的 低 24 位 。 这 意味 着 地 球 上 最 多 
可 存在 2* 个 以 太 网 卡 厂商 ， 每 个 厂商 最 多 可 生产 2” 块 
以 太 网 卡 。 当 然 ， 实 际 中 ， 也 可 以 更 改 某 块 以 太 网 卡 
的 MAC 地 址 为 任意 值 。 

交换 式 以 太 网 采用 交换 机 来 交换 数据 。 发 送 方 的 
以 太 网 IO 控制 器 从 Host 主 存 拿 到 带 有 源 和 目标 MAC 
地 址 的 原始 帧 ， 原 始 帧 稍 加 处 理 之 后 ， 便 发 送 给 以 太 
网 交换 机 。 交 换 机 也 需要 像 以 太 网 卡 一 样 从 链 路 上 接 
收 连 串 比特 流 然后 定 界 每 一 帧 ， 收 到 的 每 个 数据 帧 都 
放 入 该 端口 对 应 的 缓冲 区 等 待 下 一 步 处 理 。 针 对 每 个 
数据 帧 ， 交 换 电 路 会 检查 其 目的 MAC 地 址 ， 并 查找 
MAC 一 目标 端口 对 应 表 〈 俗 称 转发 表 ) ， 判 断 该 目标 
MAC 地 址 对 应 的 节点 所 连接 的 端口 是 哪 一 个 。 但 是 一 
开始 ， 这 张 表 是 空 的 ， 交 换 机 并 不 知道 连接 在 交换 机 
上 的 节点 的 MAC 地 址 。 所 以 ， 第 一 个 数据 帧 ， 交 换 机 
必须 广播 给 所 有 端口 ， 所 有 端口 后 面 的 网 络 IO 控 制 
器 接收 到 该 帧 ， 由 IO 控制 器 硬件 自动 检查 该 帧 目标 
MAC 地 址 ， 如 果 发 现 它 并 不 是 发 给 自己 的 ， 则 直接 丢 
弃 ， 只 有 拥有 该 目标 MAC 的 那个 节点 将 数据 帧 收入 并 
写 入 Host 主 存 。 

转发 表 可 以 人 为 填充 好 ， 但 是 这 样 很 不 灵活 ， 一 
且 其 他 节点 新 加 入 ， 表 又 得 更 改 。 所 以 以 太 网 交换 机 
被 设计 为 自动 学 习 所 有 端口 后 面 节点 的 MAC 地 址 。 
只 要 该 节点 发 送 了 数据 帧 ， 那 么 交换 机 内 部 电路 就 从 
该 帧 中 提取 出 源 MAC， 并 填 入 转发 表 。 比 如 端口 1 上 
收 到 了 源 MAC 地 址 A 的 数据 帧 ， 那 么 就 填 入 “端口 
1-МАС A” 记 录 。 如 果 某 个 端口 只 接收 数据 ， 从 来 
不 发 送 数据 ， 那 么 交换 机 就 永远 也 不 知道 该 端口 后 面 
节点 的 MAC 地 址 ， 所 有 发 送 到 该 未 知 位 置 的 MAC 地 
址 的 数据 ， 交 换 机 只 能 广播 给 所 有 端口 了 。 但 是 通信 
都 是 双方 的 ， 几 乎 不 可 能 有 节点 只 接收 不 发 送 数据 ， 
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哪怕 发 送 了 一 个 ACK 消 息 ， 该 消息 也 会 被 封装 为 以 太 
网 帧 ， 也 就 是 携带 了 源 MAC 地 址 。 所 以 ， 一 段 较 短 的 
时 间 内 ， 转 发 表 总 是 可 以 被 填充 好 。 

在 以 太 网 内 ， 发 送 方 必须 知道 接收 方 的 MAC 地 
址 才能 组 装 好 原始 帧 。 但 是 前 文中 提 到 过 ， 世 界 上 有 
大 大 小 小 的 不 同 网 络 ， 有 些 并 不 是 以 太 网 ， 它 们 使 用 
的 地 址 格式 也 并 不 是 MAC 地 址 ， 而 且 那 些 网 络 中 的 
地 址 可 能 与 本 地 网 络 地 址 相同 ， 在 这 个 全 局 范围 内 ， 
谁 是 谁 那 就 无 法 区 分 了 。 为 了 统一 ， 人 们 最 终 决 定 ， 
所 有 网 络 中 的 机 器 全 部 采用 另外 一 套 地 址 格式 一 一 IP 
地 址 ，IP 地 址 全 球 范围 内 唯一 。 可 惜 ，IPv4 地 址 长 度 
仅 有 32 位 ， 而 全 球 的 计算 机 可 远 不 止 22 台 ， 所 以 又 有 
了 IPv6 地 址 ， 但 是 至 今 仍然 是 IPv4 地 址 为 主 。 有 些 计 
算 机 并 不 接 入 全 球 范围 的 大 网 一 一 Intermet， 所 以 其 IP 
地 址 没 必要 是 全 球 唯一 的 ， 只 要 保证 在 机 器 之 间 需 要 
相互 通信 的 小 子 网 里 的 人 P 地 址 是 唯一 的 即 可 。 这 些 自 
己 私自 使 用 的 人 P 地 址 被 称 为 私 网 地 址 ， 而 那些 接 入 全 
球 互联 网 的 机 器 的 IP 地 址 被 称 为 公 网 地 址 。 当 然 ， 为 
了 解决 IP 地 址 短缺 问题 以 及 安全 性 问题 ， 人 们 发 明了 
NAT 技 术 ， 让 多 个 私 网 地 址 机 器 可 以 利用 同一 个 公 网 
地 址 接 入 互联 网 ， 这 里 具体 不 多 展开 。 

这 样 ， 发 送 方 机 器 在 发 送 数据 之 前 ， 首 先 调 用 
ARP 协 议 栈 封装 出 一 个 ARP 类 型 的 以 太 网 帧 并 广播 到 
以 太 网 上 ， 所 有 节点 收 到 之 后 ， 根 据 以 太 网 帧 的 协议 
号 判断 该 数据 包 应 该 发 送 给 ARP 处 理 模 块 处 理 。ARP 
处 理 模 块 解析 ARP 数 据 包 内 容 ， 根 据 “ 目 标 方 IP 地 
址 ”来 判断 该 数据 包 是 不 是 发 给 我 方 的 ， 不 是 则 直接 
丢弃 。 如 果 是 ， 则 进一步 通过 操作 码 字 段 判 断 出 这 是 
一 个 ARP 请 求 消息 ， 对 方 要 求 我 方 通告 我 方 的 底层 网 
络 地 址 ， 通 过 “底层 网 络 类 型 ”字段 判断 出 对 方 要求 
我 方 提供 以 太 网 MAC 地 址 ， 那 么 我 方 就 封装 出 一 条 
ARP 回 应 消息 ， 向 “目标 方 底层 网 络 地 址 ”字段 中 填 


入 我 方 〈 目 标 方 ) 的 MAC 地 址 ， 一 个 ARP 回 应 包 就 组 
装 好 了 。 然 后 请 求 方 和 我 方 的 MAC 填 入 以 太 网 帧 头 ， 
发 送 到 交换 机 。 交 换 机 接收 到 这 个 帧 ， 根 据 转 发 表 将 
该 帧 转发 给 了 请 求 方 端口 后 面 的 节点 ， 后 者 成 功 获取 
到 对 方 MAC 地 址 。 

如 图 7-58 所 示 为 ARP 请 求 以 及 对 应 的 以 太 网 帧 结 
构 。 获 取 到 对 应 IP 地 址 的 MAC 地 址 之 后 ， 计 算 机 会 将 
这 个 对 应 关系 缓存 在 ARP 缓 存在 本 地 ， 这 样 后 续 再 次 
向 某 个 IP 地 址 发 送 数据 包 时 ， 就 可 以 查找 本 地 缓存 来 
获取 对 方 的 MAC 地 址 了 。 在 上 述 过 程 中 ， 目 标 方 收 到 
请 求 方 发 来 的 ARP 请 求 ， 也 就 天 然 知道 了 请 求 方 的 IP 
和 MAC， 于 是 也 顺便 向 自己 的 ARP 缓 存 中 追加 一 条 映 
射 记录 。 如 图 7-59 所 示 为 Windows 操 作 系统 底层 ARP 
协议 栈 维护 的 ARP 缓 存 记录 。 
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图 7-59 ”ARP 缓存 中 的 记录 
提示 > 最 小 帧 长 度 的 由 来 


图 7-58 中 以 太 网 帧 尾部 的 填充 部 分 是 一 些 全 0 
数据 。 因 为 10Mbit 尺 太 网 帧 有 个 64 字 节 最 小 长 度 的 
限制 ， 由 于 ARP 数 据 包 太 小 ， 达 不 到 这 个 长 度 ， 所 
以 它 需 要 被 填充 到 64 字 节 。 规 定 以 太 网 帧 的 最 小 长 
度 是 由 于 历史 原因 。 早 期 的 共享 总 线 式 以 太 网 场景 
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下 ， 如 果 共 享 总 线 导 线 距 离 过 长 的 话 ， 这 会 导致 A 
节点 发 送 的 数据 在 经 过 一 段 时 延 之 后 才 会 被 B 节 点 
接收 到 。 而 B 接 收 到 A 的 数据 之 前 ,认为 总 线 是 空 
闲 的 ， 于 是 也 发 出 数据 ， 于 是 A 和 B 的 数据 在 导线 
上 相遇 并 登 加 ， 导 致 错乱 。 但 是 由 于 A 发 出 的 数据 
帧 过 于 短小 ，A 在 收 到 这 份 登 加 错乱 的 数据 之 前 已 
经 将 这 个 很 小 的 数据 帧 发 送 完 毕 ，A 并 不 知道 该 数 
据 已 经 被 B 发 来 的 数据 损毁 了 。A 接 收 到 这 份 损毁 
的 数据 ， 会 认为 其 是 有 效 数 据 ， 因 为 A 已 经 发 完 数 
据 了 ， 总 线 空 闸 了 ，A 又 收 到 了 新 数据 ， 并 不 会 认 
为 产生 了 冲突 。 这 就 导致 了 错误 。 如 果 A 发 送 的 数 
据 帧 足够 长 ， 长 到 B 发 送 的 数据 到 达 A 之 后 ，A 仍 未 
发 送 完 ， 那 么 此 时 A 将 接收 到 的 错乱 数据 与 本 地 比 
对 之 后 就 会 发 现 产 生 了 冲突 。 以 太 网 协议 规定 ， 总 
线 最 长 距离 不 能 超过 2.5 公 里 ， 于 是 人 们 根据 这 个 距 
离 ， 再 加 上 10Mbit/s 的 速率 ， 保 守 测 算出 最 小 帧 长 
度 应 为 64 字 节 。 虽 然后 续 的 交换 式 以 太 网 并 不 采用 
CSMA/CD 机 制 ， 但 是 仍然 保留 了 这 个 规定 。 千 兆 
以 太 网 由 于 发 送 速度 更 快 ， 所 以 这 个 值 大 大 增加 到 
了 数 百 字 节 ， 以 便 让 数据 更 慢 地 发 送 完 毕 。 当 然 ， 
千 兆 以太 网 可 以 被 配置 为 采用 CSMA/JCD 机 制 ， 也 
可 以 被 配置 为 采用 点 对 点 方式 连接 而 不 是 共享 总 线 
方式 ， 这 样 就 没有 长 度 限 制 了 。 


前 文中 说 过 ， 全 球 互联 网 络 是 由 多 个 小 网 通过 路 
由 器 组 成 的 大 网 ， 而 并 不 是 由 以 太 网 交换 机 组 成 的 大 
以 太 网 。 那 么 ， 如 果 你 要 通信 的 目标 计算 机 ， 位 于 被 
路 由 器 隔 开 的 另外 一 个 以 太 网 中 ， 又 该 怎么 通信 呢 ? 
如 果 目 标 计算 机 根本 不 在 以 太 网 中 ， 而 是 在 另外 某 种 
特殊 类 型 的 网 络 中 ， 又 该 怎么 办 呢 ? 遇 到 这 种 情况 ， 
发 送 方 计算 机 必须 将 数据 帧 先 发 送 给 网 关 〈 也 就 是 路 
由 器 ) ， 网 关 再 将 数据 帧 传递 给 对 方 网 络 ， 因 为 只 有 
网 关 知道 对 应 IP 地 址 的 数据 包 应 该 往 哪个 端口 转发 。 
如 图 7-60 所 示 为 一 个 连接 了 三 个 子 网 的 路 由 器 ， 其 中 
两 个 为 以 太 网 ， 另 外 一 个 为 某 总 线 网 络 ， 有 A 一 JI 十 
台 计算 机 连接 在 这 些 网 络 上 。 路 由 器 的 本 质 其实 就 是 
一 张 具有 多 个 网 络 IO 控制 器 的 计算 机 ， 比 如 4 口 以 太 
网 路 由 器 ， 其 本 质 就 是 拥有 4 块 网 卡 的 计算 机 ， 只 不 
过 其 直接 将 以 太 网 MO 控制 器 焊接 到 主板 上 或 者 干脆 
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以 太 网 - 以 太 网 路 
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集成 到 同一 个 芯片 内 部 去 了 ， 所 以 实际 中 的 产品 就 成 
了 如 图 7-60 中 间 所 示 的 样子 ， 右 边 则 是 以 太 网 交换 机 
的 主板 。 以 太 网 路 由 器 和 交换 机 都 是 利用 以 太 网 IO 
控制 器 将 以 太 网 帧 收入 ， 但 是 路 由 器 检查 的 是 数据 帧 
中 的 目的 耳 字段， 根据 目标 卫 地 址 查找 了 一 端口 路 由 
表 转 发 ， 而 交换 机 检查 的 则 是 目的 MAC 字 段 ， 查 找 
MAC 一 端口 转发 表 转 发 。 

本 例 中 的 路 由 器 拥有 两 个 以 太 网 I/O 控 制 器 
(MAC 地 址 分 别 为 MAC_1 和 MAC 2) 和 一 个 某 象 征 
性 总 线 网 络 IO 控制 器 ， 其 局 部 网 络 地址 为 Address3 。 

现在 ，IP 地 址 为 A 的 计算 机 A 要 给 亿 地 址 为 F 的 计 
算 机 F 发 送 数 据 。 如 果 按 照 之 前 的 方式 ， 计 算 机 A 发 送 
一 个 ARP 广 播 ， 向 F 要 它 的 MAC 地 址 ， 那 么 该 广播 并 
不 会 被 路 由 器 转发 。 前 文中 说 过 ， 路 由 器 的 存在 就 是 
为 了 将 广播 限定 在 子 网 范围 内 ， 从 而 提升 网 络 的 扩展 
性 ， 其 性 能 不 至 于 被 广播 拖 垮 。 为 了 让 A 与 F 通 信 ，A 
的 网 关 ， 也 就 是 图 中 的 路 由 器 ， 必 须 接收 目标 IP 地 址 
为 F 的 数据 包 。 有 两 种 方式 实现 这 个 机 制 。 

第 一 种 方式 。 该 机 制 对 A 保持 透明 ， 也 就 是 当 A 
发 出 询问 F 的 MAC 地 址 的 ARP 请 求 广 播 ， 路 由 器 收 到 
该 广播 之 后 ， 查 找 卫 一 端口 路 由 表 ， 发 现 该 了 身 处 与 
A 不 同 的 子 网 ， 所 以 路 由 器 返回 一 个 ARP 回 应 ， 将 路 
由 器 上 与 A 所 在 子 网 连接 的 端口 的 MAC 地 址 告诉 A， 
相当 于 欺骗 A 认 为 “F 的 MAC 地 址 就 是 MAC_1”， 于 
是 ，A 对 F 后 续 发 出 的 所 有 请 求 ， 都 会 被 交换 机 交换 到 
路 由 器 的 MAC 1 端口 。 路 由 器 拿 到 了 数据 包 ， 查 找 路 
由 表 判 断 需 要 向 MAC _2 端 口 转发 ， 于 是 路 由 器 将 数 
据 包 的 源 MAC 替 换 为 MAC_2， 目 的 MAC 替 换 为 E 的 
MAC， 然 后 将 数据 帧 发 向 F 所 在 子 网 的 交换 机 ， 交 换 
机 再 将 数据 帧 交换 到 F。 如 果 路 由 器 一 开始 不 知道 F 的 
MAC 地 址 是 多 少 ， 那 么 路 由 器 也 会 发 出 ARP 广 播 来 询 
问 。 我 们 说 了 ， 路 由 器 其 实 就 是 一 台 多 网 口 计算 机 ， 
其 底层 行为 与 计算 机 是 一 样 的 ， 你 可 以 自己 利用 PC+ 
网 卡 + 路 由 软件 搭建 一 个 路 由 器 出 来 。 当 然 ， 专 业 路 
由 器 用 了 很 多 纯 数字 电路 模块 来 加 速 对 路 由 表 的 查询 
和 数据 帧 的 转发 过 程 ，DIY 的 路 由 器 就 只 能 利用 通用 
CPU 执行 代码 的 方式 来 做 这 件 事 了 。 这 种 方式 虽然 可 
以 对 所 有 计算 机 保持 透明 ， 但 却 会 增加 路 由 器 的 负 
担 ， 而 且 不 便于 网 络 管理 ， 所 以 最 终 人 们 采用 的 是 下 
面 的 第 二 种 方式 。 


以 太 网 交换 机 


图 7-60 利用 路 由 器 连接 了 两 个 以 太 网 和 一 个 总 线 网 


有 35 可 大 话 计算 机 一 一 计算 机 系统 底层 架构 原理 极限 剖析 


第 二 种 方式 。 该 机 制 对 A 不 透明 ， 需 要 A 做 一 些 设 
计 变 更 。A 天 然 认为 任何 下地 址 对 应 的 计算 机 都 和 它 处 
在 同一 个 以 太 网 里 ， 这 是 不 对 的 。 也 正 因 如 此 ，A 才 会 
发 出 ARP 广 播 。 如 果 让 A 明确 知道 ， 某 个 人 P 地 址 与 它 不 
在 同一 个 子 网 ， 广 播 ARP 是 没 用 的 ， 那 么 怎么 办 ? 找 
网 关 啊 ! 一 切 目标 卫 地 址 与 自己 不 在 同一 个 子 网 的 数 
据 包 ， 都 发 送 给 网 关 路 由 器 ， 路 由 器 自 有 办 法 将 其 路 
由 到 目的 地 。 于 是 ， 计 算 机 A 的 网 络 层 协议 栈 需要 做 设 
计 变 更 ， 明 确 给 出 两 个 信息 : 某 个 IP 地 址 是 否 与 自己 
身 处 同一 个 子 网 的 信息 ， 以 及 网 关 的 MAC 地 址 。A 想 
要 和 任何 一 个 人 P 地 址 通信 ， 首 先 利 用 子 网 信息 判断 对 
方 与 自己 是 否 身 处 同一 个 子 网 。 如 果 是 ，A 则 发 出 ARP 
广播 直接 尝试 获取 对 方 的 MAC 地 址 ， 然 后 只 利用 交换 
机 就 可 以 与 对 方 通信 了 ; 如 果 不 是 ，A 则 将 数据 帧 的 目 
标 MAC 地 址 填 上 网 关 路 由 器 的 MAC 地 址 ， 这 样 ， 就 先 
利用 交换 机 把 该 数据 帧 传送 到 网 关 ， 网 关 收 到 之 后 ， 
再 想 办 法 发 送 到 目的 地 ，A 就 不 需要 操心 了 。 

网 关 的 MAC 地 址 需要 预先 被 手动 配置 到 网 络 层 协 
议 栈 中 ( 注 : DHCP 方 式 可 以 让 计算 机 自动 获取 包括 
自身 IP 地 址 、 网 关 及 DNS 等 全 部 所 需 的 地 址 信息 ， 这 
里 不 展开 介绍 了 ) 。 不 过 ， 为 了 统一 ， 人 们 其 实 是 将 
网 关 的 IP 地 址 告诉 网 络 层 协议 栈 的 。 计 算 机 可 以 发 送 
ARP 广 播 来 获取 网 关 的 MAC 地 址 。 

对 于 子 网 区 分 信息 ， 人 们 利用 子 网 掩 码 来 给 出 。 
在 介绍 子 网 掩 码 之 前 ， 首 先 来 看 一 下 IP 地 址 的 表示 方 


192.168.0.0 ( 11000000 10101000 00000000 00000000 ) 
192.168.0.1 ( 11000000 10101000 00000000 00000001 у 
192.168.0.2 ( 11000000 10101000 00000000 00000010 ) 
192.168.0.3 ( 11000000 10101000 00000000 00000011 ) 


192.168.0.0 ( 11000000 10101000 00000000 00000000 ) 
192.168.0.1 ( 11000000 10101000 00000000 00000001 ) 
192.168.0.2 ( 11000000 10101000 00000000 00000010 ) 
192.168.0.3 ( 11000000 10101000 00000000 00000011 ) 


192.168.0.0 ( 11000000 10101000 00000000 00000000 ) 


.0.255 ( 11000000 10101000 00000000 11111111 


192.168.0.0 ( 11000000 10101000 00000000 00000000 ) 


-255 (11000000 10101000 00000000 11111111 


7-61 


子 网 掩 码 本 质 上 就 是 给 出 了 某 个 子 网 的 地 址 数 
量 ， 而 某 个 子 网 的 第 一 个 地 址 是 谁 ， 则 需要 根据 具 
体 的 IP 地 址 推算 出 来 。 如 图 7-62 所 示 是 冬瓜 哥 的 电 
脑 的 IP、 子 网 掩 码 、 网 关 等 地 址 信息 。 子 网 掩 码 为 
255.255.254.0， 翻 译 成 二 进 制 就 是 11111111 11111111 
11111110 00000000， 最 后 9 位 为 0， 表 明 该 网 络 中 有 2" 也 
就 是 512 个 地 址 ， 再 根据 耳 地 址 10.232.116.112 推 算 ， 该 
子 网 范围 要 么 是 10.232.116.0 一 10.232.117.255， 要 么 是 
10.232.115.0—10.232.116.255, ВУЗАМ Я ВЕНУ 
对 齐 形式 ， 所 以 我 们 用 笨 办 法 可 以 从 0/1、2/3、4/5, 一 
直 数 到 116/117， 所 以 本 例 只 能 是 116 和 117 网 段 在 同一 


式 。 对 于 一 个 32 位 /4 字 节 的 IPv4 地 址 ， 为 了 便于 记忆 ， 
人 们 将 每 个 字 节 的 二 进 制 数值 表达 成 十 进 制 数 ， 也 就 
有 了 大 家 常见 的 诸如 192.168.1.1 (11000000 10101000 
00000001 00000001) 这 种 地 址 表示 方式 了 。 

如 图 7-61 所 示 为 子 网 掩 码 示 意图 ， 红 色 字体 为 子 
网 掩 码 。 如 果 你 想 组 成 一 个 只 有 两 台 机 器 的 子 网 ， 
机 器 IP 地 址 分 别 为 192.168.0.0 和 192.168.0.1。 如 果 
这 两 台 机 器 任何 一 台 要 访问 其 他 IP 地 址 ， 则 这 些 IP 
地 址 都 会 被 视 为 在 与 这 两 台 机 器 所 在 子 网 不 同 的 其 
他 子 网 中 ， 那 么 此 时 你 需要 告诉 这 两 台 机 器 的 网 络 
层 协议 栈 “ 你 们 的 子 网 掩 码 为 255.255.255.254”。 
这 个 子 网 掩 码 翻译 成 二 进 制 值 之 后 为 11111111 
11111111 11111111 11111110， 最 后 一 位 为 0， 这 表 
示 该 掩 码 所 表示 的 子 网 中 只 有 2 台 机 器 。 同 理 ， 如 果 
最 后 两 位 为 0%， 则 表示 该 掩 码 所 示 的 子 网 中 有 4 台 机 
器 。 以 此 类 推 ， 如 果 最 后 8 位 都 为 0， 则 表示 该 子 网 
有 256 台 机 器 。 这 就 是 所 谓 “ 掩 ”的 意思 。 同 理 ， 
你 也 可 以 让 192.168.0.2 和 192.168.0.3 处 在 同一 个 子 
网 ， 子 网 掩 码 仍 为 255.255.255.254。 那 么 是 否 可 以 
让 192.168.0.1 和 192.168.0.2 身 处 同一 个 子 网 呢 ? 不 可 
以 。 子 网 划分 必须 从 0 开始 以 2 为 单位 对 齐 ， 比 如 0 和 
1、2 和 3、4 和 5， 但 是 不 可 以 是 0 和 2、3 和 4。 当 然 也 
可 以 是 0/1/2/3 这 4 个 地 址 组 成 一 个 子 网 ，4/5/6/7 再 组 
成 一 个 子 网 ， 或 者 0 一 7 组 成 一 个 子 网 ，8 一 15 再 组 成 
一 个 子 网 等 。 


255.255. 


255.254 (11111111 11111111 11111111 11111110) 


255.255.255.254 (11111111 11111111 11111111 11111110) 


255.255.255.252 ( 11111111 11111111 11111111 11111100 ) 


255.255.255.0 ( 11111111 11111111 11111111 00000000 ) 
) 


255.255.254.0 ( 11111111 11111111 11111110 оооооооо ) 
) 


子 网 掩 码 示意 图 


个 子 网 ， 也 就 最 终 确 定 了 自己 身 处 的 子 网 范围 。 


IPv4 地 址 10. 232. 116.112 

IPv4 FARA 255. 255. 254.0 

获得 租约 的 时 间 2017 年 5 月 2 日 19:04:57 
租约 过 期 的 时 间 2017 年 5 月 3 日 19:05:02 
IPv4 默认 网 关 10. 232. 116.1 


IPv4 DHCP 服务 器 
IPv4 DNS 服务 器 


图 7-62 ”网 关 和 子 网 掩 码 
还 有 个 规定 需要 注意 : 对 于 一 个 IP 子 网 范围 ， 第 
一 个 地 址 保留 ， 用 作 网 络 号 ， 最 后 一 个 地 址 也 保留 ， 
用 作 该 子 网 的 广播 地 址 :如果 目 标 地 址 为 本 网 广播 地 


10.232.116.1 
10.180.112. 26 


址 ， 广 播 MAC 地 址 会 被 自动 加 到 数据 帧 上 ;如果 目 标 
IP 地 址 为 其 他 子 网 的 广播 地 址 ， 路 由 器 路 由 到 最 终 目 
标 子 网 时 ， 会 将 MAC 替 换 为 广播 地 址 ， 对 目标 子 网 发 
出 广播 。 所 以 掩 码 为 255.255.255.254 只 有 2 个 地 址 的 子 
网 是 没有 实际 意义 的 。 另 外 ， 每 个 子 网 如 果 想 要 与 其 
他 子 网 连同 起 来 ， 就 需要 网 关 来 转发 。 一 个 子 网 的 网 
关 的 耳 地 址 也 就 是 与 本 子 网 相连 的 路 由 器 端口 的 耳 地 
址 ， 该 IP 地 址 也 落 入 本 子 网 的 IP 网 段 内 。 通 常人 们 习 
惯 将 网 关 地 址 设置 为 子 网 中 最 后 一 个 或 者 第 一 个 可 用 
的 IP 地 址 。 


给 身 处 以 太 网 或 者 其 他 任意 类 型 网 络 中 的 计算 


机 配置 IP 地 址 时 ， 要 规划 好 ， 让 处 在 同一 个 物理 子 
网 中 的 机 器 的 耳 地 址 也 处 在 同一 个 耳 地 址 子 网 中 。 


经 过 这 样 的 设计 规划 ， 每 台 计 算 机 都 知道 自己 身 
处 的 IP 子 网 范围 、 网 关 地 址 。 那 么 ， 计 算 机 如 果 对 任 
何 一 个 IP 地 址 发 出 数据 包 的 话 ， 如 果 该 了 地址 落 入 了 
本 计算 机 所 在 的 子 网 范围 ， 则 直接 发 ARP 询 问 其 MAC 
地 址 ， 和 否则， 计算 机 发 送 ARP 询 问 网 关 的 MAC 地 址 ， 
然后 将 数据 帧 目标 MAC 设 置 为 网 关 MAC， 从 而 转发 
给 网 关 。 

路 由 器 的 每 个 端口 都 具有 局 部 网 络 地 址 (比如 
MAC 地 址 ) 以 及 IP 地 址 。 而 交换 机 本 身 则 没有 MAC 
地 址 ， 或 者 说 不 需要 有 。 但 是 实际 产品 中 ， 为 了 对 交 
换 机 进行 远程 管理 ， 交 换 机 本 身 也 需要 设置 一 个 了 地 
址 以 及 对 应 的 MAC 作 为 管理 用 IP 地 址 。 你 可 以 认为 
人 们 在 交换 机 内 部 放置 了 一 台 小 计算 机 并 连 入 网 络 ， 
该 计算 机 的 IP 地 址 就 是 管理 用 IP 地 址 ， 只 是 外 面 看 不 
到 该 计算 机 ， 本 质 上 其 实 也 就 是 这 样 的 。 对 于 路 由 器 
的 管理 ， 计 算 机 可 以 直接 与 路 由 器 的 任何 一 个 端口 的 
IP 地 址 发 起 通信 ， 路 由 器 收 到 针对 自己 IP 地 址 的 数据 
包 ， 就 知道 这 是 管理 用 数据 包 了 。 

如 果 是 有 多 个 路 由 器 的 场景 呢 ? 如 图 7-63 所 示 为 
A 向 M 发 送 数据 的 过 程 。 可 以 看 到 数据 包 中 的 源 和 目 
的 JP 地址 是 不 变 的， 而 每 经 过 一 个 子 网 ， 对 应 的 源 和 
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目的 局 部 网 络 地 址 都 会 变化 。 

A 是 怎么 知道 M 的 IP 的 呢 ?” 必 须 预先 知道 。 比 如 
DNS 机 制 可 以 将 某 个 域名 解析 成 耳 地 址 ，DNS 的 卫 地 
址 需要 预先 配置 好 ， 如 果 你 连 DNS 的 IP 地 址 也 不 知 
道 ， 那 就 只 能 干 瞪眼 了 。 

综 上 所 述 ， 路 由 器 每 个 端口 上 的 了 地 址 似乎 是 没 
有 必要 的 ， 因 为 子 网 中 的 计算 机 只 需要 知道 网 关 的 局 
部 网 络 地 址 比如 MAC 就 可 以 了 。 事 实 远 非 如 此 简单 。 
路 由 器 需要 被 远程 登录 做 管理 ， 需 要 IP 地 址 。 一 些 动 
态 路 由 协议 ， 用 于 路 由 器 自动 学 习 整 个 互联 网 络 上 
的 IP 子 网 范围 的 位 置 和 拓扑 ， 有 些 动态 路 由 协议 也 需 
要 路 由 器 之 间 相 互通 信 ， 则 也 需要 路 由 器 自身 的 了 地 
址 。 另 外 ， 路 由 器 上 每 个 具有 IP 地 址 的 端口 ， 也 都 需 
要 配置 一 个 子 网 掩 码 ， 否 则 路 由 器 就 不 会 知道 这 个 端 
口 后 面 的 子 网 人 P 地 址 范围 ， 就 无 法 做 路 由 。 

不 少 文章 甚至 教科 书 中 ， 都 将 以 太 网 认为 是 一 个 
纯 二 层 〈 链 路 层 及 以 下 ) 设备 ， 这 无 可 厚 非 。 这 就 像 
把 传输 网 整个 体系 看 作物 理 层 的 一 种 距离 延伸 手段 ， 
所 以 你 可 以 说 传输 网 运行 在 物理 层 甚至 第 0 层 。 但 是 
你 看 进去 之 后 ， 会 发 现 传输 网 整体 从 物理 层 到 应 用 层 
都 有 自己 的 一 套 规范 。 上 文中 也 说 过 ， 一 定 要 深刻 理 
解 ， 用 一 个 网 络 承载 另 一 个 网 络 时 ， 底 层 的 承载 网 络 
整体 就 变 成 了 上 面 那个 网 络 中 的 某 一 层 。 但 是 这 并 不 
说 明 承载 网 络 自身 内 部 就 不 分 层 ， 如 果 这 个 网 络 单独 
拿 出 来 ， 我 们 就 要 实事 求 是 地 按照 其 层次 来 分 开 理 
解 ， 当 要 用 它 承载 男 一 个 网 络 时 ， 它 就 十 缩 成 上 层 网 
络 的 某 一 层 了 。 

很 明显 ， 以 太 网 是 有 自己 的 网 络 层 的 ， 只 不 过 为 
了 统一 ， 人 们 利用 I 地 址 和 IP 路 由 器 ， 将 卫 地 址 盖 到 
了 包括 以 太 网 在 内 的 各 种 局 部 网 络 的 上 方 ， 屏 蔽 和 替 
代 了 各 局 部 网 络 的 网 络 层 功能 。 比 如 ，ARP 协 议 用 于 
把 各 种 局 部 网 络 地 址 比如 MAC 映 射 成 IP 地 址 ，IP 路 
由 器 则 充当 了 这 个 上 层 大 互联 网 络 上 的 交换 机 /总 线 / 
Ring 的 角色 。IP 协 议 栈 在 上 层 这 个 虚拟 的 IP 互 联网 上 
叱 吃 风 云 ， 其 实 底层 还 是 依靠 各 个 局 部 子 网 将 数据 做 
最 终 的 传递 。 假 设 两 台 连 接 在 以 太 网 交换 机 上 的 设备 
不 采用 IP 这 一 套 ， 而 直接 就 把 TCP 数 据 包 承 载 到 以 太 
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网 上 ， 双 方 直接 就 用 MAC 地 址 通信 ， 这 样 可 以 么 ? 当 
然 可 以 了 ， 必 须 可 以 ， 这 里 没 IP 什 么 事 ， 那 么 此 时 以 
太 网 的 网 络 层 功能 就 暴露 出 来 了 ， 为 人 所 见 ， 也 就 不 
会 有 人 说 以 太 网 是 个 二 层 设 备 了 。 但 是 下 出 现 的 原因 
就 是 为 了 网 络 互联 ， 为 了 统一 寻 址 ， 所 以 大 范围 网 络 
还 用 以 太 网 MAC 直 接 寻 址 就 不 现实 了 ， 因 为 以 太 网 
广播 的 问题 ， 以 及 并 不 是 所 有 局 部 网 络 都 是 以 太 网 。 
IP 协 议 栈 出 现 了 ， 以 太 网 的 网 络 层 功 能 就 不 可 见 了 。 
所 以 准确 的 说 法 是 : 以 太 网 自身 是 有 网 络 层 功能 的 ， 
但 是 在 亿 网 络 下 ， 以 太 网 的 网 络 层 会 被 映射 到 TP 网 络 
层 ， 但 是 在 局 部 网 络 交换 时 ， 其 依然 体现 出 网 络 层 
功能 。 

查 了 一 端口 路 由 表 转 发 和 查 MAC 一 端口 转发 表 转 
发 ， 它 们 的 本 质 都 是 一 样 的 ， 条 件 相同 的 情况 下 〈 比 
如 电路 规格 和 表 条 目 相同 ) ， 其 速度 几乎 也 是 一 样 
为 ， 查 路 由 表 可 能 需要 多 算 一 下 子 网 掩 码 。 但 是 IP 路 
由 器 还 要 做 很 多 其 他 工作 ， 比 如 包 过 滤 等 复杂 的 网 络 
控制 工作 。 所 以 最 终 来 看 ， 物 理 条 件 相同 的 话 ， 底 层 
交换 机 的 交换 速度 会 高 于 路 由 器 路 由 速度 。 


7.3.3.2 以太 网 的 链 路 层 和 物理 层 


以 太 网 有 多 种 不 同 的 规格 ， 每 种 规格 又 有 不 同 的 
物理 接口 ， 比 如 有 些 用 铜 线 缆 ， 有 些 用 光纤 。 用 铜 导 
线 的 又 分 用 了 两 对 儿 导 线 或 4 对 儿 导 线 ， 用 光纤 的 也 
有 不 同 波长 等 规格 。 每 一 种 子 方式 的 底层 的 编码 格式 
可 能 都 不 同 。 在 这 里 ， 限 于 篇 幅 ， 就 不 介绍 具体 的 以 
太 网 分 类 、 各 种 编码 规则 了 。 

第 一 代 以 太 网 在 每 一 帧 之 前 放置 一 小 段 特 殊 的 编 
码 ( 前 导 码 ) 用 于 同步 接收 方 的 时 钟 信号 ， 接 收 方 接 
收 到 同步 码 之 后 ， 会 将 本 地 的 时 钟 按照 同步 码 到 达 的 
高 低 震 荡 重新 同步 一 下 〈 锁 相 ) ， 然 后 开始 接收 数据 
帧 中 后 续 的 部 分 ， 发 送 方 如 果 没 有 数据 要 发 送 ， 则 链 
路 为 空闲 状态 。 后 来 从 百 兆 以 太 网 开始 ， 不 再 使 用 前 
导 码 同步 ， 而 转 为 使 用 Idle 帧 保持 同步 ， 发 送 方 即 便 
没有 数据 要 发 送 ， 底 层 电 路 也 会 不 断 自动 发 出 Idle 帧 
给 接收 方 ， 以 用 于 时 钟 同 步 。 

以 太 网 IO 控制 器 还 会 发 出 一 些 专门 用 于 链 路 控 
制 的 私有 帧 ， 这 些 帧 没有 源 或 者 目的 地 址 ， 专 门 用 
于 本 地 IO 控制 器 和 交换 机 一 侧 对 应 端口 的 IO 控制 器 
之 间 用 来 链 路 运行 模式 的 协商 等 控制 过 程 。 这 些 私 有 
帧 ， 还 记得 吗 ， 就 是 前 文 提 到 过 的 DLLP (Data Link 
Layer Packet) 。 具 体 过 程 请 大 家 自行 查阅 。 


7.3.3.3 ”以 太 网 I/O 控 制 器 


上 文中 说 过 ， 不 管 是 计算 机 、 交 换 机 ， 还 是 路 
由 器 ， 只 要 它们 接 入 以 太 网 ， 每 个 以 太 网 端口 的 后 方 
都 是 一 个 以 太 网 IO 控制 器 在 负责 接收 和 发 送 以 太 网 
帧 。 所 不 同 的 是 对 于 计算 机 来 讲 ，L/O 控 制 器 把 数据 
写 入 Host 主 存 ， 剩 下 的 就 由 Host 端 程序 来 处 理 了 ， 包 
括 一 层 层 的 协议 栈 拆 包 分 析 最 后 露出 有 效 载 荷 发 送 给 


应 用 程序 。 对 于 交换 机 而 言 ， 其 每 个 端口 后 面 的 VO 
控制 器 收 到 以 太 网 帧 之 后 ， 其 实 也 是 将 其 放置 到 端口 
后 方 的 一 个 缓冲 区 中 ， 为 了 保证 交换 速度 ， 由 专用 的 
电路 来 提取 该 帧 分 析 帧 头 并 查 表 匹配 ， 最 后 交换 到 出 
端口 方向 ， 对 应 查 表 电 路 的 示意 原理 已 经 在 第 1 章 中 
做 了 介绍 。 

如 图 7-64 所 示 是 一 个 百 兆 以 太 网 IO 控制 器 〈 兼 
容 10MB 以 太 网 ) 内 部 电路 模块 框图 。 其 中 MAC 模 
块 用 介质 无 关 接 口 MII Interface (Media Independent 
Interface, МП) 与 PHY 模 块 相 连 ，PHY 模 块 通过 内 部 
总 线 与 Transceiver 模 块 相 连 。 

本 章 介绍 到 这 里 ， 大 家 应 该 可 以 迅速 理解 图 
7-64 中 的 这 三 个 模块 各 自 都 是 负责 什么 方面 的 了 。 
很 显然 ， 介 质 访问 控制 (Media Accessing Control, 
MAC) 模块 负责 与 Host 端 程序 打交道 ， 属 于 主 控 部 
分 ， 属 于 整个 以 太 网 IO 控制 器 的 大 脑 ， 这 也 是 为 什 
么 每 个 以 太 网 IO 控制 器 的 唯一 标识 被 称 为 MAC 地 址 
的 原因 。PHY 模 块 的 责任 很 明显 是 各 种 上 层 N/Mb 编 
码 、 加 扰 、 链 路 协商 等 链 路 层 的 工作 。Transceiver 模 
块根 据 其 名 称 也 可 以 判断 出 ， 这 个 模块 一 定 是 负责 
串 并 转换 、 线 路 编码 、 锁 相 、 信 号 处 理 等 物理 层 的 
工作 。 其 中 Adaptive Equalizer 就 是 上 文中 所 述 的 均衡 
器 ， 而 且 其 对 信号 幅 值 的 改变 方式 和 程度 是 可 以 根据 
线路 上 的 实时 情况 作出 变化 的 ， 所 以 称 为 Adaptive。 
另外 可 以 看 到 3-Level 编 解码 器 和 MLT-3 一 NRZI 线 路 编 
码 转换 器 ， 线 路 编码 在 上 文中 介绍 过 。 

通常 ， 人 们 将 Transceiver 角 色 与 PHY 合 并 ， 它 们 
统称 为 PHY。 由 于 百 光 和 十 兆 以 太 网 的 底层 机 制 不 
同 ， 所 以 该 PHY 中 存在 两 套 独立 的 接收 控制 电路 模 
块 ， 可 以 自 适 应 判断 出 线路 上 的 信号 模式 并 启用 对 应 
的 电路 模块 。MAC 模 块 与 PHY 模 块 之 间 通 过 某 种 内 部 
总 线 相连 传送 数据 ， 实 现 松 耦 合 ， 这 样 是 为 了 适 配 各 
种 不 同 规格 的 以 太 网 。 比 如 底层 更 换 为 千 兆 以 太 网 的 
PHY/ 链 路 /介质 ， 只 需要 更 换 PHY 模 块 ， 原 有 的 MAC 
模块 的 大 部 分 可 以 重用 甚至 无 需 改动 。 这 也 是 为 何 它 
们 之 间 的 接口 被 称 为 “介质 无 关 接口 ”的 原因 。MAC 
模块 属于 管理 者 、 协 调 者 ，PHY 则 属于 具体 干 活 的 
人 ， 前 者 与 Host 端 程序 打交道 ， 工 作 多 变 、 复 杂 ， 后 
者 的 工作 没什么 变数 ， 重 复 性 高 。 


7.4 典型 IO 网 络 简介 


具备 了 通用 计算 机 网 络 方面 的 知识 之 后 ， 我 们 进 
阶 到 计算 机 IO 网 络 这 个 领域 。 向 大 家 介绍 一 下 那些 
专门 用 于 将 外 部 IO 设备 接 入 到 系统 中 的 那些 网 络 ， 
比如 PCIE、USB， 以 及 专门 用 于 存储 系统 的 SAS 网 
络 。 时 刻 牢 记 一 个 宗旨 : 只 要 是 通信 、 网 络 ， 不 管 是 
计算 机 外 部 的 还 是 内 部 的 ， 都 离 不 开 上 文中 介绍 过 的 
OSI 框架 ， 其 收发 数据 的 套路 都 是 一 样 的。 只 不 过 不 
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同 的 网 络 应 用 场景 很 不 同 ， 有 些 是 一 个 网 套 着 另 一 个 
网 ， 有 些 则 是 一 个 网 挂 在 另 一 个 网 后 面 ， 让 你 眼花 
绑 乱 ， 但 是 只 要 时 刻 牢记 上 面 的 宗旨 ， 就 不 会 感到 
迷茫。 


7.4.1 PCIE 一 一 高 速 通用 访 存 式 前 端 /O 


现在 你 开始 试想 一 下 ， 根 据 前 文中 介绍 过 的 思 
路 ， 只 要 让 CPU 可 以 寻 址 到 IO 控制 器 的 相关 寄存 器 ， 
就 可 以 给 I/O 控 制 器 下 发 命令 以 及 数据 指针 了 。 那 
么 ， 只 要 将 IO 控制 器 的 操作 寄存 器 映射 到 CPU 地 址 
空间 中 即 可 ， 也 就 是 必须 存在 某 种 地 址 路 由 机 制 和 器 
件 ， 其 收 到 针对 某 个 或 者 某 段 地址 的 访问 请 求 ， 就 将 
请 求 发 送 给 某 个 IO 控制 器 。 此 外 ，LIO 控 制 器 还 需要 
通过 某 种 高 速 总 线 从 主 存 中 读数 据 或 者 向 主 存 中 写 入 
数据 。 

如 果 能 够 设计 一 个 网 络 ， 用 该 网 络 承载 上 述 的 访 
存 请 求 ， 那 就 既 可 以 让 CPU 访问 到 IO 控制 器 的 寄存 
器 ， 也 可 以 让 IO 控制 器 访问 到 主 在。Ring 或 者 QPI 网 
络 当然 可 以 做 到 ， 但 是 速率 较 高 ， 成 本 高 ， 布 线 长 度 
短 ， 它 们 无 法 支持 连接 太 多 的 外 部 设备 。 目 前 最 为 常 
用 的 访 存 式 IJO 网 络 是 PCIE 网 络 。 

PCIE 网 络 的 作用 是 将 多 个 IO 控制 器 接 入 到 系统 
中 来 ， 其 具体 形式 ， 是 将 所 有 挂 接 到 PCIE 网 络 上 的 
IO 控制 器 所 暴露 的 寄存 器 映射 到 系统 全 局 地 址 空间 
中 ， 所 以 ， 它 是 一 个 承载 存储 器 读 写 请 求 的 访 存 网 
络 。 为 了 做 到 这 一 点 ，PCIE 网 络 总 控制 器 需要 从 前 
端 访 存 网 络 ， 比 如 Ring (如果 PCIE 总 控 被 集成 到 CPU 
内 的 话 ) 或 者 IO 桥 〈 如 果 PCIE 总 控 被 集成 到 IO 桥 的 
话 ) 上 的 Crossbar 网 络 中 接收 对 应 地 址 空间 的 访 存 请 
求 ， 并 将 这 些 请 求 转 发 给 后 端 1O 控 制 器 。 

说 到 访 存 网 络 ， 其 实在 上 一 章 中 已 经 初步 涉猎 过 
Intel 的 QPI 网 络 的 一 些 相 关内 容 ，PCIE 网 可 以 说 与 QPI 
网 络 类 似 度 很 高 ， 但 是 其 速率 更 低 一 些 。 但 是 PCIE 
网 络 定义 了 一 些 与 /0 强 相关 的 项 目 ， 而 QPI 则 更 加 注 
重 单纯 的 访 存 和 CC 流量 。 下 面 我 们 从 PCIE 存 在 的 原 
因 一 步 一 步 思考 该 网 络 应 该 具有 什么 样 的 特质 ， 如 图 
7-65 所 示 。 

© PCIE 网 络 总 控制 器 如 何 发 现 PCIE 网 络 上 目 
前 都 连接 了 哪些 LO 控制 器 ? 也 就 是 说 ，PCIE 网 络 的 
设备 发 现 和 扫描 机 制 是 怎样 的 ? 是 人 为 定 死 的 ， 还 是 
动态 的 ? 每 个 PCIE 网 络 上 的 PCIE 设 备 (IO 控制 器 ) 
的 标识 是 怎样 的 ? 

ө ”假设 PCIE 网 络 总 控 发 现 了 某 个 IO 控制 器 ， 
那么 PCIE 网 络 总 控 如 何 知道 该 MO 控制 器 到 底 暴 露 了 
多 少 容量 的 寄存 器 ? 就 当前 主流 的 IO 控制 器 来 看 ， 
它们 暴露 的 寄存 器 容量 大 概 在 几 KB 到 几 百 MB 之 间 ， 
显卡 暴露 得 较 多 ， 一 般 为 数 百 MB 或 者 几 十 GB。 而 
声卡 、 存 储 IO 卡 暴露 大 概 几 MB 。 有 些 特殊 的 板 卡 则 


会 暴露 数 十 GB 的 存储 器 空间 ， 这 么 大 容量 的 地 址 空 
间 ， 其 对 应 的 物理 介质 就 不 是 寄存 器 了 ， 而 基本 上 都 
是 DDR SDRAM。 需 要 有 某 种 方式 让 PCIE IO 主 控 明 
确 获 知 某 个 IO 控制 器 暴露 的 寄存 器 /存储 器 容量 。 

ө 另外 ， 在 IO 控制 器 暴露 的 存储 器 中 ， 哪 些 
地 址 对 应 了 什么 寄存 器 ， 这 个 由 谁 来 操心 呢 ? 比如 ， 
某 个 IO 控制 器 暴露 了 1MB 的 寄存 器 /存储 器 空间 ， 其 
中 0 一 8 号 地 址 上 对 应 了 该 IO 控 制 器 内 部 的 状态 寄存 
器 ，9 一 16 地 址 上 对 应 了 一 个 数据 寄存 器 ， 从 1MB 开 
始 倒数 512KB 是 一 小 段 数据 缓冲 区 ， 等 等 。 这 些 对 应 
关系 应 该 由 Host 端 的 程序 来 操心 ， 通 常 是 由 该 IO 控制 
器 对 应 的 驱动 程序 来 关心 ， 这 些 驱动 程序 必须 在 编写 
的 时 候 就 设计 好 ， 明 确 知道 该 1O 控 制 器 的 这 段 地 址 
空间 内 的 哪 段 对 应 了 哪个 寄存 器 或 者 缓冲 区 。 

@ ”另外 一 个 要 解决 的 问题 是 ， 获 知 了 对 应 1/O 
控制 器 上 的 要 暴露 的 寄存 器 的 容量 之 后 ， 还 需要 将 这 
些 地 址 空间 纳入 到 全 局 地 址 空间 中 ， 也 就 是 配置 系统 
前 端 访 存 网 络 上 的 路 由 表 ， 凡 是 访问 这 些 地 址 的 请 求 
全 部 转发 给 PCIE 网 络 总 控制 器 。PCIE 网 络 总 控 及 其 
后 面 的 PCIE 网 络 也 需要 知道 哪 段 地 址 空间 对 应 了 哪个 
后 端 1O 控 制 器 ， 从 而 才能 将 PCIE 网 络 总 控 器 发 出 的 
请 求 路 由 给 目标 IO 控制 器 。 

@ ”假设 有 两 个 LO 控制 器 A 和 B， 各 有 1KB 的 寄 
存 器 需要 暴露 ， 其 各 自 被 映射 到 了 CPU 物 理 地 址 空间 
的 0 一 1023 以 及 1024 一 2047 这 两 段 地 址 上 。 那 么 ， 如 
何 让 A 的 驱动 程序 知道 A 的 地 址 在 0~1023， 而 让 B 的 
驱动 程序 知道 B 的 在 1024 一 2047 呢 ? 
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7-65 ”设想 中 的 PCIE 网 络 


了 PCIE 网 络 被 设计 为 按照 如 下 的 逻辑 来 工作 ， 从 而 
解决 上 面 这 些 问题 。 下 面 我 们 就 一 步 步 演绎 一 下 PCIE 
网 络 的 运作 机 制 。 
7.4.1.1 PCI 网 络 拓扑 及 数据 收发 过 程 

PCIE 网 络 到 底 是 一 种 什么 拓扑 ? 我 想 这 是 大 家 看 
到 这 里 自然 闪现 在 脑海 里 的 一 个 问题 。PCIE 是 从 PCI 


网 络 改 进而 来 的 ， 继 承 了 很 多 PCI 的 特性 。 所 以 我 们 
先 看 看 PCI 网 络 是 什么 样子 。 如 图 7-66 所 示 为 PCI 网 络 
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的 基本 拓扑 ， 其 是 一 个 基于 并 行 总 线 传输 的 共享 总 线 
型 的 网 络 。 数 据 与 地 址 复 用 32 位 位 宽 的 并 行 总 线 ， 这 
意味 着 每 个 时 钟 周期 可 以 发 送 4 字 节 的 数据 ， 同 时 也 
意味 着 每 个 IO 控制 器 暴露 的 寄存 器 容量 最 大 不 能 超 
过 4GB (32 位 地 址 ) 。PCI 网 络 并 设 有 4 位 宽 的 命令 
总 线 ， 以 及 其 他 控制 信号 总 线 。 假 设 PCI 网 络 总 控制 
器 想 要 将 某 32 位 的 数据 写 入 到 某 个 IO 控制 器 的 寄存 
器 地 址 空间 的 从 物理 地 址 A〈32 位 ) 开始 往 后 的 32 位 
这 段 空 间 中 ， 其 需要 先 获得 仲裁 ， 然 后 在 第 一 个 时 钟 
周期 将 32 位 的 地 址 A 放 置 到 地 址 /数据 总 线 上 ， 同 时 在 
该 周期 内 将 4 位 的 命令 信号 〈 这 里 是 “存储 器 写 ” 指 
令 ) 编码 放置 在 命令 总 线 上 。 这 里 似乎 缺少 了 一 点 信 
息 。 为 什么 总 控制 器 不 把 “要 写 入 总 线 上 哪个 IO 控 
制 器 ”的 信息 广播 到 总 线 呢 ? 如 果 不 通告 这 个 信息 ， 
总 线 上 的 所 有 IO 控制 器 怎么 会 知道 该 数据 是 发 送 给 
谁 的 呢 ? 

由 于 是 共享 总 线 ， 所 以 总 线 上 的 全 部 IO 控制 器 
都 会 接收 到 地 址 和 命令 信号 。 那 么 ， 位 于 同一 个 总 线 
上 的 多 个 IO 控制 器 ， 它 们 又 是 怎么 知道 自己 的 寄存 
器 地 址 段 是 否 落 入 了 A 到 A+4 这 段 物 理 地 址 区 间 呢 ? 
很 显然 ， 只 有 地 址 范围 落 入 该 地 址 段 的 那个 IO 控制 
器 才 应 该 接收 这 个 请 求 。 其 实 ，Host 端 的 程序 会 把 每 
个 IO 控制 器 暴露 的 寄存 器 空间 映射 到 CPU 物理 地 址 ， 
并 将 映射 好 的 物理 地 址 基地 址 告诉 MO 控制 器 ， 这 样 
后 者 自然 就 知道 自己 应 该 响应 哪些 地 址 的 访问 请 求 
了 。 这 也 回答 了 上 面 的 问题 ， 也 就 是 PCI 总 控制 器 不 


需要 通告 “该 请 求 是 给 谁 的 ”， 因 为 所 有 IO 控制 器 
只 需要 各 自 根据 地 址 信号 就 可 以 判断 自己 是 否 该 响应 
这 个 请 求 了 。 这 个 过 程 叫 作 基于 访 存 地 址 做 路 由 ， 其 
与 IP 路 由 器 基于 IP 地 址 做 路 由 的 本 质 是 一 样 的 。IP 路 
由 器 需要 被 配置 入 或 者 自学 习 ) IP 路 由 表 ， 同 理 ， 
PCI 网 络 上 的 每 个 节点 也 需要 被 配置 入 对 应 的 地 址 范 
围 信 息 。 至 于 给 IO 控制 器 映射 物理 地 址 的 过 程 机 制 
的 细节 ， 我 们 下 文中 再 描述 。 

好 ， 对 应 的 IO 控制 器 接收 到 地 址 信号 并 做 译 码 
判断 该 请 求 是 发 给 自己 的 ， 而 且 命 令 是 要 写 入 自己 的 
某 段 寄存 器 ， 则 其 会 在 内 部 准备 好 用 于 接收 数据 的 缓 
冲 区 ， 然 后 使 用 特殊 的 控制 信号 〈 比 如 TRDY# 信 和 号， 
低 电 平 为 真 ) 放置 在 控制 信号 总 线 上 ， 从 而 通告 发 送 
方 可 以 发 送 数据 了 。 或 者 发 送 方 早已 将 数据 放置 在 了 
数据 总 线 上 ， 但 是 发 送 方 一 直 会 等 到 该 信号 变 为 高 电 
平 之 后 的 下 一 个 时 钟 周期 ， 才 会 认为 上 一 份 数据 被 成 
功 接收 ， 才 能 继续 发 送 下 一 份 数据 。 

由 于 数据 /地 址 总 线 位 宽 为 32 位 ， 所 以 每 个 时 钟 周 
期 最 多 发 送 4 字 节 数据 ， 如 果 发 送 的 数据 少 于 4 字 节 ， 
可 以 使 用 另外 的 控制 信号 (BE#， 共 4 位 ， 与 命令 总 线 复 
用 ) ， 来 通告 接收 方 本 次 只 发 送 了 1 字 节 (BE#=0001) ~ 
2:98 (BE#=0011) 、3 字 节 (BE#=0111) 或 4 字 节 
(BE#-1111) 。 接 收 方 根据 BE# 信 号 ， 就 知道 32 位 数据 
信号 中 哪些 才 是 本 次 传送 的 有 效 数据 。 

如 果 总 控 端 想 要 读 取 某 IO 控制 器 内 部 的 数据 ， 
那么 除了 在 地 址 总 线 上 放置 地 址 信号 之 外 ， 还 需 同 


有 3 可 大 话 计算 机 一 一 计算 机 系统 底层 架构 原理 极限 剖析 


时 在 命令 总 线 上 放置 “存储 器 读 ” 指 令 所 对 应 的 编码 
信号 即 可 。 同 样 ， 还 是 只 有 目标 IO 控制 器 接受 该 信 
号 ， 并 做 处 理 ， 从 其 内 部 寄存 器 空间 读 出 对 应 内 容 然 
后 放置 到 数据 总 线 上 。 

另外 也 可 以 看 到 ， 为 了 增强 扩展 性 ，PCI 网 络 
拓扑 中 引入 了 桥接 器 这 个 角色 ， 其 作用 是 从 一 个 PCI 
总 线 接收 数据 和 命令 ， 然 后 将 它们 转发 到 其 后 面 的 
PCI 总 线 上 继续 执行 。 乍 一 看 ， 多 此 一 举 。 为 什么 不 
把 所 有 PCI 设 备 挂 接 到 同一 个 总 线 上 呢 ? 在 之 前 的 章 
节 中 提 到 过 ， 共 享 总 线 的 一 个 整 端 就 是 总 线 电容 太 
大 ， 频 率 做 不 高 ， 要 做 高 频率 就 得 限制 挂 接 设 备 的 
数量 。PCI 桥 相当 于 一 个 中 继 器 ， 将 多 个 容纳 设备 
数量 有 限 的 小 总 线 串 接 起 来 。 桥 接 器 上 游 的 总 线 对 
其 自身 而 言 属 于 Primary Bus， 而 下 游 的 总 线 则 属于 
Secondary Bus。 桥 下 游 还 能 继续 接 更 多 桥 。 当 PCI 网 
络 总 控制 器 发 送 某 个 访 存 请 求 时 ， 比 如 读 请 求 ，PCI 
桥接 器 一 旦 感受 到 该 地 址 落 入 了 其 下 游 的 MO 控制 器 
的 地 址 范围 〈 桥 接 器 是 怎么 知道 其 下 游 的 MO 控制 器 
的 物理 地 址 段 的 昵 ? 下 文 介绍 ) ， 则 将 对 应 的 控制 信 
号 (TRDY#) 置 为 高 电 平 状态 ， 通 知 总 控制 器 先 hold 
住 ， 莫 急 ， 然 后 将 该 请 求 收入 圳 中 ， 然 后 原封 不 动 的 
转发 到 下 游 总 线 上 ， 往 后 面 扔 。 下 游 总 线 上 的 部 件 继 
续 根据 地 址 判断 自己 该 不 该 响应 ， 可 能 会 一 直 扔 到 最 
后 一 层 总 线 ， 每 往 下 游 扔 一 次 ， 本 级 的 总 线 就 得 被 
hold 住 一 直 等 到 下 游 返回 数据 为 止 。 最 后 ， 总 会 有 某 
个 IO 设备 响应 该 请 求 ， 然 后 读 出 数据 返回 给 上 一 层 
桥 ， 然 后 接着 往 回 返 ， 一 直 返回 到 最 上 游 的 PCI 总 控 
制 器 端 。 每 往 上 游 返回 一 层 数 据 ， 本 层 总 线 就 被 释放 
了 。 有 个 单独 的 控制 信号 (FRAME#) 来 标识 当前 总 
线 是 否 空闲 ， 抢 到 仲裁 的 节点 会 拉 低 该 电 平 从 而 通告 
其 他 节点 当前 总 线 有 人 占用 。 传 送 结束 后 ， 之 前 使 用 
总 线 的 节点 必须 拉 高 这 个 电 平 ， 这 样 其 他 人 就 知道 资 
源 被 释放 了 ， 从 而 继续 抢 仲裁 。 

现在 思考 一 个 问题 : 当 数 据 从 IO 控制 器 返回 给 
最 上 游 的 PCI 网 络 总 控 时 ， 此 时 只 有 数据 被 返回 ， 没 
有 用 于 路 由 判断 的 地 址 信息 ， 那 么 此 时 总 线 上 的 各 个 
节点 如 何 判断 该 数据 到 底 是 给 谁 的 呢 ? 无须 判断 ， 因 
为 在 这 时 候 ， 当 时 请 求 数 据 的 那个 节点 继续 占有 总 
线 ， 并 期 待 着 数据 的 到 来 。 所 以 ， 此 时 返回 的 数据 ， 
一 定 会 被 刚才 发 送 请 求 的 那个 节点 接收 到 ， 其 他 人 
不 会 干预 。 也 就 是 说 请 求 数据 的 那 一 方 会 死 等 在 那 
里 ， 这 样 势必 太 浪 费 总 线 资源 。 后 来 的 一 些 PCI 标 准 
里 引入 了 一 些 优化 的 措施 ， 不 死 等 ， 下 发 请 求 之 后 
FRAME# 信 和 号 就 会 被 释放 以 便 让 其 他 数据 传送 可 以 占 
用 总 线 ， 数 据 准 备 好 之 后 ， 再 返回 给 请 求 端 。 

再 思考 一 个 问题 ， 在 前 文中 提 到 过 ，IO 控 制 器 
可 以 采用 DMA 的 方式 主动 去 Host 端 主 存 中 的 任何 地 址 
读 取 数据 或 者 写 入 数据 。 那 么 对 于 那些 由 1/O 控 制 器 
主动 发 起 的 访问 主 存 的 请 求 ， 又 该 怎么 被 路 由 到 PCI 
总 控制 器 一 端 呢 ? 此 时 ， 该 请 求 依然 会 按照 PCI 总 线 


的 定义 ， 向 总 线 放 置 命令 和 地 址 ， 只 不 过 ， 该 访 存 请 
求 的 目标 地 址 落 入 了 Host 端 的 主 存 ， 没 有 落 入 任何 其 
他 IO 控制 器 的 寄存 器 空间 ， 所 以 其 他 IO 控制 器 自然 
不 响应 。 但 是 PCI 桥 此 时 必须 响应 ， 虽 然 它 只 被 配置 
了 “哪些 地 址 的 请 求 必须 往 下 游 转 发 ”的 地 址 范围 信 
息 ， 但 这 也 同时 意味 着 “凡是 没落 入 这 些 地 址 的 统统 
往 上 游 转发 ”， 这 属于 一 种 默认 路 由 。 或 者 PCI 总 控 
制 器 直接 响应 〈 如 果 IO 控 制 器 挂 接 在 第 一 层 总 线 上 
的 话 ) ， 因 为 PCI 总 控制 器 是 精确 知道 系统 全 局 地 址 
的 路 由 信息 的 。 

那么 ， 一 个 IO 控制 器 是 否 可 以 访问 另外 的 IO 控 
制 器 的 寄存 器 空间 呢 ? 当然 可 以 ， 这 对 一 个 网 络 来 讲 
是 最 基本 的 、 应 该 支持 的 。 这 种 访问 方式 被 称 为 PCI/ 
PCIE P2P (Peer To Peer) 访问 。 其 路 由 过 程 与 上 面 是 
相同 ， 也 需要 PCI 桥 接 器 做 默认 路 由 ， 也 就 是 往 上 游 
转发 。 当 然 ， 如 果 命 中 在 本 地 总 线 的 访 存 请 求 ，PCI 
桥接 器 是 明确 知道 的 ， 所 以 它 并 不 会 转发 ， 自 然 有 位 
于 本 总 线 的 其 他 LO 控制 器 响应 该 请 求 。 

现在 该 回答 遗留 问题 了 ， 也 就 是 每 个 IO 控制 
器 、 桥 接 器 是 怎么 知道 自己 应 该 响应 哪些 地 址 的 访 
存 请 求 的 。 前 文中 提 到 过 ， 有 某 种 机 制 ， 将 IO 控制 
器 的 寄存 器 映射 到 CPU 物理 地 址 空间 ， 然 后 再 将 物理 
地 址 的 基地 址 通告 给 IO 控制 器 。 要 做 到 这 一 点 ， 前 
提 是 必须 知道 每 个 IO 控制 器 上 都 有 多 少 容 量 的 寄存 
器 。 这 个 当然 只 有 IO 控制 器 自己 知道 ， 所 以 ， 它 应 
该 先 把 这 个 信息 通告 出 去 ， 或 者 将 其 暴露 出 来 ， 等 人 
来 检视 。I/O 控 制 器 要 暴露 的 信息 可 不 止 寄存 器 容量 
这 一 点 点 ， 而 是 一 大 堆 。 


7.4.1.2 ”PCI 设备 的 配置 空间 


那么 ，L/O 控 制 器 都 可 以 向 Host 端 设备 管理 程序 
提供 哪些 基本 信息 呢 ?PCI 标 准将 这 些 信息 组 织 成 了 
如 图 7-67 所 示 的 样子 。 其 中 ，Vendor ID 表示 该 IO 控 
制 器 的 生产 厂商 标识 ， 比 如 Intel 生 产 的 全 部 PCIE IO 
控制 卡 的 Vendor ID 全 部 =0x8086， 而 Intel 生 产 的 基于 
82571EB 芯 片 的 网 卡 的 Device ID 为 0x105E。 但 是 ， 
同一 款 型 号 的 网 卡 ， 可 能 其 固件 版 本 、 外 围 器 件 设计 
的 版 本 也 不 同 ， 其 IO 过 程 中 的 操作 方式 也 会 有 所 不 
同 。 那 么 就 有 必要 再 做 细 分 ，Revision ID 就 是 用 来 细 
分 这 些小 版 本 的 。 现 在 你 该 知道 了 ， 每 个 PCIE 设 备 驱 
动 程序 在 被 装载 的 时 候 ， 会 向 由 设备 管理 程序 生成 的 
数据 结构 中 写 入 自己 所 能 驱动 的 Vendor ID、Device ID 
和 Revision ID 等 用 于 匹配 的 信息 ， 同 时 也 会 注册 一 个 
驱动 程序 的 主 入 口 函数 的 指针 。 这 样 ， 在 设备 管理 程 
序 发 现 了 PCI 网 络 上 的 设备 并 将 对 应 设备 的 这 些 ID 读 
出 后 ， 通 过 比 对 这 些 预 先 注册 的 表 中 的 信息 ， 就 知道 
目前 系统 中 有 没有 合适 的 驱动 程序 来 驱动 该 设备 ， 然 
后 调用 当时 由 该 程序 注册 的 入 口 函数 指针 ， 执 行 该 驱 
动 程序 ， 从 而 与 设备 建立 通信 (驱动 程序 用 队列 或 者 
其 他 方式 向 设备 发 送 各 种 命令 对 设备 进行 控制 ， 以 及 


完成 其 他 工作 ) 。 至 此 我 们 依然 没有 解释 驱动 程序 是 
如 何 知道 对 应 的 IO 控制 器 的 寄存 器 被 映射 在 CPU 物理 
地 址 空间 的 哪里 ， 因 为 只 有 获知 这 个 信息 ， 驱 动 程序 
才能 与 设备 建立 通信 。 

31 24 23 16 15 87 0 
0x000 Device ID Vendor ID 


0x004 Status Command 

0x008 Tass Code Revision ID 
0x00C 0x00 Header Type 0x00 Cache Line Size 
0x010 BAR Registers 

0x014 BAR Registers 

0x018 BAR Registers 

001C BAR Registers 

0x020 BAR Registers 

0x024 BAR Registers 

0x028 Reserved 

0x02 Sul Device ID Subsystem Vendor ID 

0x030 Expansion ROM Base Address 

0x034 Reserved fepabiities Pointer 
0x038 Reserved 

Ox03C 0x00 Interrupt Pin Interrupt Line 


图 7-67 用 于 存放 基本 信息 的 寄存 器 组 


Class Code 字 段 表 示 该 设备 为 哪个 大 类 的 设备 ， 
比如 网 络 IO 控制 类 、 显 示 IO 控 制 类 、 多 媒体 LO 控制 
类 、 存 储 IO 控 制 类 等 。 如 果 设 备 管理 程序 没有 找到 
对 应 VID/DID/RID 的 驱动 ， 则 比如 Windows 操 作 系 统 
的 设备 管理 器 中 会 出 现 一 个 带 问 号 的 图 标 ， 比 如 “未 
知 网 络 适 配器 ”。 

如 果 你 自己 设计 了 一 种 PCIE IO 控制 器 ， 则 需要 
向 PCIE 标 准 组 织 去 注册 申请 对 应 的 Vendor 和 Device 
ID。 而 Revision ID 完全 由 IO 控制 器 自身 随便 根据 自 定 
的 规则 来 组 织 和 分 配 。 

Status 字 段 给 出 了 当前 该 IO 控制 器 的 各 种 状态 
信息 。Command 字 段 中 存储 的 则 是 一 些 与 工作 模式 
有 关 的 信息 。Command 字 段 是 可 以 被 Host 端 程序 更 
改 的 ， 是 可 写 的 ， 而 Status 字 段 中 几乎 所 有 的 位 都 是 
只 读 的 。 上 文中 的 各 种 ID 字段 也 是 只 读 的 。 所 以 ， 
Command 寄 存 器 中 的 信号 是 需要 被 真实 连接 到 I/O 控 
制 器 前 端的 PCIE 通 道 控制 器 相关 的 硬件 电路 上 的 ， 从 
而 实现 对 这 些 电 路 工作 模式 的 控制 。 而 Status 和 各 种 
ID 寄存 器 的 目的 只 是 让 Host 端 程序 来 看 的 ， 并 不 需要 
更 改 。 


提示 > 

读 到 这 里 可 能 比较 迷惑 的 一 点 是 ， 上 面 的 这 些 
信息 存在 于 哪里 呢 ? 这 些 信息 原本 是 被 放 到 IO 控制 
器 内 部 的 ROM 里 的 ， 加 电 后 IO 控制 器 内 部 的 国 件 
或 者 微 码 将 其 从 ROM 读 出 ， 并 载 入 一 堆 寄 存 器 中 。 
这 一 堆 用 于 放置 IO 控制 器 基本 信息 的 寄存 器 被 称 为 
配置 空间 (Configuration Space) ， 意 思 是 这 堆 寄存 
器 中 的 值 表示 的 都 是 设备 的 基本 信息 ， 有 些 可 以 被 
配置 成 另外 的 值 从 而 控制 IO 控制 器 的 工作 行为 。 
图 7-67 所 示 的 配置 空间 只 是 基本 的 ， 其 中 有 一 项 为 
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Capabilities Pointer， 该 指针 指向 的 是 扩展 配置 空 
间 。 扩 展 配 置 空间 中 会 有 更 多 配置 参数 选项 ， 这 里 
就 不 再 多 介绍 了 。 


由 于 篇 幅 所 限 ， 其 他 寄存 器 字段 的 含义 就 不 多 介 
绍 了 。 最 后 介绍 一 下 配置 空间 中 最 为 关键 的 寄存 器 : 
基 址 寄存 器 (Вазе Address Register, ВАВ) 。 同 时 
也 该 是 时 候 回答 “Host 端 程序 如 何 知道 该 IO 控制 器 
暴露 了 多 少 寄存 器 容量 ”这 个 问题 了 。 一 开始 ， 只 
有 I/O 控 制 器 自己 知道 自己 有 多 少 寄存 器 要 暴露 ， 比 
如 ， 有 4KB 的 寄存 器 要 暴露 〈12 位 可 以 表示 4KB 的 地 
址 空间 ) 。 那 么 它 如 何 让 外 界 知道 这 个 信息 呢 ? 答案 
就 是 IO 控制 器 在 电路 上 被 设计 为 将 BAR 寄 存 器 〈 假 
设 为 32 位 ) 中 的 低 12 位 设置 为 只 读 ， 而 且 值 永远 为 
0， 但 是 高 20 位 可 被 写 入 。 初 始 时 ，BAR 寄 存 器 内 的 
32 位 都 为 0。Host 端 设备 管理 程序 尝试 向 BAR 内 写 入 
32 个 1， 但 是 由 于 低 12 位 只 读 ， 所 以 无 法 更 改 为 1， 但 
是 高 20 位 被 成 功 更 改 为 1。 然 后 ， 设 备 管理 程序 再 次 
尝试 读 出 该 BAR 的 值 ， 就 会 发 现 得 到 一 个 高 20 位 为 
1、 低 12 位 为 0 的 值 。 程 序 此 时 就 可 以 判断 出 有 几 个 
只 读 位 ， 本 例 中 为 12 个 ， 那 么 就 表示 该 IO 控制 器 利 
用 该 BAR 声 明了 22=4KB 的 存储 器 容量 。 同 理 ， 如 果 
4GB 的 寄存 器 空间 要 暴露 ， BAR 内 的 32 个 位 都 要 设置 
为 只 读 ， 这 样 ， 程 序 读 回 的 将 是 32 个 0， 也 就 可 以 判 
断 为 4GB 容 量 。 

在 前 面 的 图 7-67 中 ，PCI 标 准 规定 了 IO 控制 器 可 
以 利用 6 个 BAR 来 记录 6 段 寄存 器 空间 的 容量 值 。IO 
控制 器 可 以 灵活 地 将 自己 内 部 的 寄存 器 空间 分 组 并 暴 
露 ， 比 如 一 些 用 于 IO 控制 方面 的 队列 指针 寄存 器 、 
命令 寄存 器 、 状 态 寄存 器 等 可 以 暴露 在 BAR#0 所 记录 
的 容量 中 ， 一 些 数据 缓冲 区 可 以 暴露 在 BAR#1 所 记 
录 的 容量 中 ， 等 等 。 至 于 外 界 如 何 知道 哪个 BAR 暴 
露 了 是 什么 样 的 寄存 器 ， 那 还 是 得 依靠 驱动 程序 来 判 
断 ， 因 为 驱动 程序 和 IO 控制 器 本 身 就 是 配合 关系 。 
每 个 BAR 所 声明 的 容量 ， 后 续 会 被 Host 端 设备 管理 程 
序 映射 到 某 段 物理 空间 ， 并 将 物理 地 址 指针 记录 在 内 
存 相 应 的 数据 结构 中 ，IO 控 制 器 驱动 程序 通过 读 取 
这 些 物 理 地 址 指针 就 知道 哪个 BAR 被 映射 在 了 哪里 ， 
从 而 就 知道 了 诸如 “队列 指针 寄存 器 ”位 于 哪个 物理 
地 址 ， 就 可 以 向 其 中 写 入 指针 进行 IO 控制 了 。IO 控 
制 器 上 的 PCI 控 制 器 也 需要 知道 这 种 映射 关系 ， 所 以 
Host 端 在 映射 了 物理 地 址 之 后 ， 需 要 将 物理 地 址 指针 
通告 给 IO 控制 器 前 端的 PCI 控 制 器 〈 其 实 是 将 物理 地 
址 指针 原 地 写 入 到 对 应 BAR 里 ， 详 见 下 文 ) ， 行 成 路 
由 表 。 这 样 ，IO 控 制 器 前 端的 PCI 控 制 器 接收 到 任何 
物理 地 址 访问 请 求 ， 就 知道 对 应 地 址 落 入 了 哪个 BAR 
所 描述 的 寄存 器 空间 ， 从 而 到 内 部 对 应 的 寄存 器 中 访 
问 对 应 数据 。 所 以 ， 一 定 要 理解 ，BAR 只 是 用 来 通告 
寄存 器 容量 的 (并 在 映射 了 物理 地 址 之 后 用 于 存储 物 
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理 地 址 指针 ) ， 其 并 不 存储 任何 与 IO 相关 的 数据 。 
所 谓 “BAR 空 间 ” 指 的 是 “BAR 中 的 值 所 声明 的 
这 些 容 量 对 应 的 寄存 器 空间 ”， 至 于 这 些 寄 存 器 在 
哪 ，IO 控 制 器 硬件 设计 的 时 候 会 定 死 ， 并 向 前 端 PCI 
控制 器 通告 “哪个 BAR 对 应 那 一 批 内 部 寄存 器 ”。 前 
端 PCI 控 制 器 再 根据 由 Host 程 序 通 告 的 每 个 BAR 被 映 
射 到 的 物理 地 址 指针 判断 该 地 址 落 入 哪个 BAR， 然 后 
再 根据 “哪个 BAR 对 应 那 一 批 内 部 寄存 器 ”映射 关系 
来 访问 最 终 的 MO 控制 器 内 部 的 寄存 器 。 对 配置 信息 
《配置 空间 寄存 器 ) 进行 访问 ， 和 对 IO 控制 器 内 部 
的 MO 控制 寄存 器 进行 访问 ， 是 完全 不 同 的 两 种 访问 
模式 ， 访 问 前 者 是 为 了 获取 后 者 的 信息 并 为 后 者 分 配 
物理 地 址 ， 最 终 的 目的 是 访问 后 者 。 

图 7-68 给 出 了 配置 空间 寄存 器 堆 ， 以 及 其 中 的 
BAR 寄 存 器 与 IO 控制 器 内 部 的 寄存 器 之 间 的 角色 关 
系 示意 图 。 
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注意 ， 一 个 BAR 本 身 只 有 32 位 的 容量 ， 其 作用 
是 记录 该 IO 控制 器 暴露 的 某 段 寄存 器 的 容量 的 值 。 
BAR 寄 存 器 本 身 并 不 暴露 在 物理 地 址 空间 中 ， 也 不 
能 用 来 当 作 盛 放 队列 指针 寄存 器 或 者 充当 其 他 控制 
寄存 器 。 但 是 人 们 俗称 的 “BAR 空 间 ”， 准 确 的 说 
法 其 实 是 “该 BAR 所 声明 的 容量 所 对 应 的 那 段 寄存 
器 空间 ”。BAR 所 声明 的 寄存 器 空间 在 物理 上 其 实 
是 位 于 IO 控制 器 内 部 某 处 连续 的 或 者 不 连续 的 大 
片 寄 存 器 堆 ， 或 者 SRAM 存 储 器 ， 甚 至 可 以 是 DDR 
SDRAM 存 储 器 。 至 于 具体 在 哪 、 是 什么 ， 并 不 重 
要 ， 重 要 的 是 ，BAR 声 明 的 这 段 空间 必须 支持 直接 
被 字 节 级 寻 址 访问 。 


至 此 ， 我 们 依然 没有 解释 ， 驱 动 程序 是 如 何 知道 
IO 控制 器 寄存 器 空间 所 被 映射 在 的 物理 地 址 的 ， 
为 只 有 知道 这 个 ， 驱 动 程序 才能 访问 这 些 寄存 器 ， 才 
能 与 设备 通信 。 不 过 ， 在 解释 这 一 点 之 前 ， 我 们 必须 
先 把 “设备 管理 程序 是 如 何 访问 配置 空间 寄存 器 的 ” 
这 个 问题 解释 清楚 ， 这 是 前 提 。Host 端 先 得 能 访问 配 
置 空间 ， 比 如 访问 BAR， 才 能 知道 IO 控制 器 暴露 了 
几 个 BAR， 以 及 每 个 BAR 中 声明 了 多 少 容量 的 寄存 器 
空间 ， 然 后 再 着 手 将 这 些 空间 映射 到 CPU 的 物理 地 址 
中 去 。 


7.4.1.3 PCI 设 备 的 枚 举 和 配置 


本 节 试 图 回答 Host 端 的 设备 管理 程序 具体 是 怎么 
从 IO 控制 器 上 读 取 上 述 的 包括 BAR 在 内 的 配置 信息 ， 
以 及 对 这 些 信息 做 变更 的 。 比 如 修改 Command 寄 存 器 
中 的 值 以 改变 设备 的 工作 模式 ， 向 BAR 中 写 入 全 1 以 获 
取 该 BAR 所 声明 的 待 暴 露 的 寄存 器 容量 ， 等 等 。 

人 们 最 先是 这 样 设计 的 。 给 每 个 位 于 PCI 网 络 上 
的 1/O 控 制 器 编号 ，Host 端 的 设备 发 现 和 管理 程序 直 
接 向 PCI 网 络 总 控制 器 发 送 指令 (向 PCI 总 控制 器 的 
CONFIG_ADDRESS 控 制 寄 存 器 写 入 命令 ， 该 控制 器 
寄存 器 已 经 被 预先 映射 到 了 物理 地 址 空间 ， 如 Intel 平 
台 下 一 般 为 0CF8h) ， 要 求 其 返回 某 编号 的 设备 配置 
空间 中 的 某 寄 存 器 信息 。 该 指令 中 携带 有 命令 码 Сй 
取 还 是 更 改 配置 ) 、 设 备 编号 、 配 置 空间 内 的 寄存 器 
〈 见 图 7-67) 偏 移 量 。 如 果 指令 的 目的 是 更 改 某 个 配 
置 空间 寄存 器 的 值 ， 则 还 需要 将 更 改 的 新 值 告诉 PCI 
总 控制 器 ， 也 就 是 将 其 写 入 PCI 总 控制 器 的 CONFIG_ 
DATA (Intel 平 台 下 该 寄存 器 被 映射 在 物理 地 址 90CFCh 
+) 寄存 器 。 下 面 的 事情 就 由 PCI 总 控制 器 全 权 操 作 
了 。PCI 总 控制 器 将 该 请 求 从 CONFIG_ADDRESS 寄 
存 器 中 复制 出 来 ， 然 后 直接 发 送 给 PCI 网 络 上 的 对 应 
编号 的 IO 控制 器 ， 并 等 待 其 返回 所 需 的 信息 。 

那么 ，PCI 总 控制 器 又 是 怎么 知道 哪个 设备 对 应 
哪个 编号 呢 ? 另外 ， 既 然 多 个 IO 控制 器 都 在 同一 条 
共享 总 线 上 ， 又 怎么 确保 只 有 对 应 编号 的 IO 控制 器 
接收 这 条 指令 昵 ? 实际 上 ， 这 个 映射 关系 是 固定 的 ， 
了 PCI 网 络 总 控制 器 是 根据 MO 设备 所 连接 在 的 总 线 上 的 
具体 位 置 来 判断 该 设备 的 编号 ， 相 当 于 一 个 坑 对 应 着 
一 个 固定 的 号 。 

如 图 7-69 所 示 ，PCI 被 设计 为 将 数据 /地 址 总 线 上 
的 一 部 分 信号 ， 比 如 32 位 中 的 21 根 信号 线 作为 设备 选 
通信 号 ， 每 个 IO 控制 器 与 其 中 的 1 根 导线 连接 起 来 ， 
所 以 一 根 PCI 总 线 最 多 连接 21 个 设备 〈IO 控 制 器 或 者 
桥接 器 ) 。 与 这 堆 导 线 中 的 第 0 根 连接 着 的 设备 为 0 号 
设备 ， 与 第 20 根 连接 着 的 设备 就 是 20 号 设备 。 编 号 规 
则 就 这 么 简单 。 篇 幅 所 限 ， 图 中 并 未 真 的 画 出 21 根 
线 。 当 PCI 总 控 要 从 某 个 编号 的 IO 设备 的 配置 空间 中 
读 出 对 应 寄存 器 信息 的 时 候 ， 首 先 会 向 命令 字 总 线 上 
放置 “配置 读 ” 命 令 的 编码 信号 ， 这 样 ， 所 有 位 于 该 


总 线 的 IO 控制 器 就 都 知道 了 “总 控 要 打算 读 配置 信 
息 了 ”。 这 一 点 很 重要 ， 因 为 在 下 一 个 时 钟 周期 ， 总 
线 上 的 每 个 IO 控制 器 或 者 桥接 器 都 要 在 第 二 个 时 钟 
周期 对 上 述 的 这 根 选 通信 号 进行 采样 ， 以 判断 PCI 总 
控制 器 是 不 是 点 了 自己 的 名 字 ВОН) ， 比 如 对 应 
的 信号 电 平 被 抬 高 〈 平 时 为 低 ) ， 图 中 PCI 总 控 正 在 
点 名 左手 边 第 一 个 IO 控制 器 。 而 如 果 PCI 总 控 在 第 一 
个 时 钟 周期 发 送 的 并 不 是 配置 读 命令 ， 而 是 存储 器 读 
写 命令 ， 那 么 在 第 二 个 时 钟 周期 内 ，I/O 控 制 器 根本 
不 会 理会 这 根 选 通信 号 线 ， 此 时 整个 数据 /地 址 总 线 上 
传送 的 将 会 是 32 位 完整 的 地 址 或 者 数据 。 

怎么 理解 所 谓 “ 第 一 个 ”时 钟 周期 ? FRAME# 
信号 被 抬 高 ， 这 表示 新 一 轮 数 据 传 送 结束 。 在 下 一 
个 时 钟 周期 ， 如 果 FRAME# 信 号 保持 为 高 ， 则 表示 
暂 没 有 数据 发 送 ， 各 方 保持 现 有 状态 不 变 (封闭 内 
部 寄存 器 的 写 使 能 信号 ) 。 直 到 FRAME# 信 号 再 次 
被 拉 低 ， 则 这 个 低 电 平 将 触发 总 线 上 其 他 设备 在 下 
一 个 时 钟 周 期 内 对 命令 总 线 采样 ， 进 入 新 一 轮 数 
据 传送 过 程 ， 重 新 开始 “第 一 个 周期 ”。 每 一 轮 
数据 传送 被 称 为 一 个 PCI 总 线 事务 ， 比 如 配置 读 事 
务 、 配 置 写 事务 、 存 储 器 读 事务 、 存 储 器 写 事务 ， 
等 等 。 


也 就 是 说 ， 地 址 /数据 总 线 在 不 同 的 总 线 事务 中 
的 用 法 是 不 一 样 的 ， 它 们 被 复 用 了 。 当 然 ， 完 全 可 以 
单独 为 每 个 功能 设置 独立 的 导线 ， 但 是 这 样 做 就 不 划 
算 了 。 那 么 ， 为 什么 在 这 32 位 复 用 信号 中 只 有 21 位 
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被 用 来 连接 最 多 21 个 IO 设备 的 选 通信 号 昵 ? 为 什么 
不 把 32 根 信号 全 部 连接 32 个 设备 呢 ? PCI 总 控 还 需要 
用 这 32 位 中 的 另外 11 个 位 来 传递 配置 空间 寄存 器 号 ， 
也 就 是 告诉 IO 控制 器 “我 要 读 出 你 的 xx 号 配置 寄存 
器 ”， 以 及 其 他 一 些 控制 信息 。 只 有 被 选 通 的 IO 控 
制 器 才 会 对 这 11 位 的 信息 采样 并 锁 存 ， 然 后 执行 ， 也 
就 是 根据 寄存 器 号 ， 去 自己 的 配置 空间 寄存 器 堆 读 出 
对 应 寄存 器 的 值 ， 然 后 在 后 续 的 时 钟 周期 将 数据 放置 
到 数据 总 线 上 传送 给 PCI 总 控制 器 。 后 者 再 将 收 到 的 
数据 值 放 入 自己 在 CPU 物理 地 址 空间 中 暴露 的 、 专 门 
用 于 存放 配置 信息 的 CONFIG_DATA 寄 存 器 中 ，Host 
端的 程序 从 这 里 将 数据 读 走 ， 从 而 获取 到 对 应 配置 寄 
存 器 的 值 。 
这 里 有 个 问题 : 当 IO 控 制 器 将 配置 信息 传送 给 
了 PCI 总 控 之 后 ，Host 端 的 程序 是 如 何 知道 该 信息 在 
什么 时 候 经 到 达 PCI 总 控 并 被 存 入 了 CONFIG_DATA 
寄存 器 ， 从 而 发 起 读 CONFIG_DATA 寄 存 器 的 操 
作 ? Host 端 程序 根本 就 不 知道 。 如 果 IO 控 制 器 还 没 
来 得 及 返回 对 应 数据 ，Host 端 程序 就 来 读 CONFIG 
DATA， 读 到 的 将 是 错误 的 数据 。 设 计 者 们 是 这 样 
解决 这 个 问题 的 : Host 端 程序 先 将 配置 读 命令 写 入 
到 位 于 PCI 总 控 上 的 CONFIG_ADDRESS 寄 存 器 ， 
此 时 PCI 总 控制 器 先 不 向 总 线 发 出 请 求 ; 紧 接着 ， 
Host 端 程序 会 尝试 从 CONFIG_DATA 寄 存 器 读数 据 
( 因为 程序 知道 PCI 总 控 会 将 从 IO 控制 器 拿 到 的 
值 写 入 该 寄存 器 ) 。 此 时 ， 这 个 读 操作 ( 对 应 着 
机 器 码 的 Load 操 作 ) 才 会 触发 PCI 总 控 将 CONFIG_ 


PCI 控制 器 


图 7-69 数据 /地 址 总 线 中 的 一 部 分 位 用 来 作为 选 通信 号 


有 59 大 话 计算 机 一 一 计算 机 系统 底层 架构 原理 极限 剖析 


ADDRESS 中 的 命令 ( 包含 选 通信 号 和 寄存 器 号 等 
控制 信息 ) 发 送 到 数据 /地 址 总 线 上 ， 这 一 批 信号 将 
引发 1O 控 制 器 去 读 自己 的 配置 空间 中 对 应 寄存 器 的 
值 并 返回 。 这 期 间 内 ，PCI 总 控制 器 不 会 向 CPU 核 
心 的 L/S 单元 返回 任何 响应 ， 所 以 这 条 Load 请 求 会 
一 直 阻 塞 在 核心 的 L/S 单元 中 。Host 端 的 程序 代码 也 
会 一 直 处 于 阻塞 状态 ( 当然 ， 你 应 该 继续 联想 到 ， 
此 时 CPU 核心 上 的 超 线程 控制 单元 会 调度 其 他 线程 

行 ， 以 填补 由 于 这 个 Load 引 发 的 流水 线 阻塞 空 
泡 ) 。 直 到 数据 返回 ，Host 端 设备 管理 程序 线程 才 
会 继续 被 载 入 流水 线 执 行 ， 而 此 时 数据 已 经 被 Load 
到 了 核心 内 部 的 寄存 器 。 这 样 ， 就 可 以 保证 Host 端 
程序 的 读 操作 是 一 个 同步 操作 ，Host 端 程序 拿 不 到 
数据 就 一 直 等 ， 等 到 拿 到 为 止 。 


如 图 7-70 所 示 为 上 述 过 程 的 一 个 总 结 。Host 端 的 
程序 每 次 只 能 读 取 配置 空间 中 的 一 个 寄存 器 (一 个 字 
节 ) 的 值 ， 所 以 需要 循环 多 次 来 将 整个 配置 空间 全 部 
读 入 内 存 ， 或 者 有 些 信息 选择 不 读 入 ， 这 完全 取决 于 
设备 管理 程序 自身 的 设计 想法 。 下 面 我 们 更 深入 一 步 
思考 ， 如 何 读 出 位 于 PCI 桥 接 器 下 游 总 线 上 某 个 设备 
的 配置 信息 ? 

很 显然 ， 我 们 需要 对 设备 编号 进行 区 分 ， 因 为 
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每 条 总 线 上 都 有 0 号 设备 。 那 么 很 自然 ， 再 附加 一 
总 线 编号 就 能 区 分 出 整个 PCI 网 络 域内 的 全 部 设备 。 
我 们 将 总 线 号 称 为 BUS ID， 简 称 BID， 设 备 号 则 称 为 
Device ID， 简 称 DID (注意 : 该 DID 与 配置 空间 寄存 
器 中 的 DID 完全 是 两 码 事 ， 后 者 是 标识 厂商 产品 型 号 
) ， 将 配置 空间 寄存 器 号 称 为 Register ID，RID。 

如 图 7-71 所 示 为 BID 和 DID 的 分 配 规则 。 与 PCI 总 
控 直接 相连 的 总 线 的 BID=0， 总 线 上 的 第 一 个 (DID 
最 小 的 ， 桥 接 器 也 有 自己 的 DID) 桥接 器 下 挂 的 总 线 
BID=1，Bus#1 上 的 DID 最 小 的 桥接 器 下 挂 的 总 线 的 
BID=2， 如 果 该 分 支 下 游 还 有 其 他 桥接 器 ， 那 就 继续 
编号 ， 一 直到 尽头 为 止 ， 再 返回 最 上 层 继续 穷 举 。 这 
种 方式 叫 作 深度 优先 ， 也 就 是 碰 到 一 个 分 支 必须 沿 着 
该 分 支 走 到 头 ， 再 返回 走 另 一 条 分 支 。 

那么 ， 现 在 是 不 是 Host 端 程序 只 要 在 CONFIG_ 
ADDRESS 寄 存 器 中 写 入 带 有 BID 的 配置 读 写 命令 ， 
就 可 以 访问 到 指定 BID 和 DID 的 设备 上 的 指定 RID 中 的 
信息 了 呢 ? 非 也 。 这 个 带 有 BID 的 请 求 ， 必 须 被 转发 
到 下 游 对 应 的 总 线 ， 如 图 7-71 中 的 场景 。 假 设 程序 要 
读 出 编号 为 B2D0 设 备 的 RID=32 中 的 配置 信息 ， 那 么 
B0D1 必 须 接收 这 个 请 求 ， 并 将 请 求 发 送 到 Bl1。B1D1 
必须 接收 这 个 请 求 ， 将 请 求 发 送 到 B2， 然 后 B2D0 接 
收 这 个 请 求 ， 进 行 配置 寄存 器 访问 。 很 显然 ， 每 个 桥 
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Host 端 设备 管理 程序 读 出 IO 控制 器 的 配置 信息 的 过 程 


接 器 必须 知道 如 下 信息 才能 完成 这 个 命令 的 转发 : 自 
己 上 游 总 线 的 BID、 自 己 下 游 总 线 的 BID 、 自 己 下 游 
尽头 最 后 一 个 总 线 的 BID 。 如 果 接 收 到 针对 自己 上 游 
总 线 BID 的 配置 访问 请 求 ， 桥 接 器 不 会 将 其 转发 到 下 
游 ， 如 果 接收 到 针对 自己 直 连 下 游 总 线 或 者 自己 所 处 
分 支 的 最 尽头 总 线 以 及 下 游 分 支 所 有 中 间 级 总 线 的 请 
求 ， 桥 接 器 必须 将 其 接收 然后 转发 到 下 游 总 线 ， 下 游 
总 线 如 果 不 是 最 后 一 级 ， 那 么 下 游 总 线 上 的 PCI 桥 会 
做 相同 的 接力 传递 。 
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现在 问题 变 为 : 如 何 让 PCI 桥 知道 自己 的 上 下 游 
总 线 ID， 以 及 本 分 支 尽头 的 总 线 ID? 显然 ，Host 端 程 
序 需要 将 对 应 的 BID 告诉 PCI 桥 。 如 何 告诉 ? 将 这 三 个 
ID 写 入 到 PCI 桥 的 配置 空间 中 对 应 的 寄存 器 。 

如 图 7-72 左 侧 所 示 为 本 拓扑 中 的 4 个 PCI 桥 接 器 各 
自 应 该 知晓 的 BID， 右 侧 则 为 PCI 桥 接 器 的 配置 空间 ， 
它 与 PCIIO 设 备 的 配置 空间 是 不 同 的 。 其 中 ，Primary 
Bus Number、Secondary Bus Number 和 Subordinate 
Bus Number 分 别 表示 上 游 BID、 下 游 BID 和 分 支 尽头 
的 BID 。 问 题 好 像 变 得 比较 简单 了 ， 那 就 是 Host 端 设 
备 管理 程序 直接 将 对 应 的 ID 号 码 写 入 PCI 桥 配置 空间 
中 的 这 三 个 寄存 器 不 就 可 以 了 么 ? 但 是 ， 要 向 PCI 桥 
发 送 配 置 写 请 求 ， 比 如 要 配置 PCI 桥 B2D1 的 这 三 个 
BID， 它 上 游 的 所 有 PCI 桥 必须 先 被 配置 好 ， 没 有 桥 是 
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过 不 了 河 的 。 

所 以 ，Host 端 设备 管理 程序 必须 一 层 一 层 地 去 发 
现 总 线 和 总 线 上 的 所 有 设备 〈 读 取 它 们 的 配置 空间 中 
关键 的 寄存 器 比如 Class Code、VID/DID 等 ) , — B. 
发 现 PCI 桥 设备 〈Header Type 字段 为 00000001， 则 表 
示 PCI 桥 设备 ) ， 便 更 新 其 上 游 BID 寄存 器 ， 然 后 将 
BID+1 的 值 更 新 到 该 桥 的 下 游 BID 寄存 器 。 

PCI 将 与 PCI 网 络 总 控制 器 直接 相连 的 下 游 总 线 固 
定 为 BID0， 在 这 个 规则 之 上 ，Host 端 设备 管理 程序 开 
始 对 整个 PCI 网 络 发 起 设备 扫描 和 配置 过 程 。 具 体 过 
程 如 下 。 

(1) 程序 首先 向 C_ADD 寄 存 器 地 址 写 入 命令 ， 
要 求 PCI 总 控 读 出 BID=0、DID=0 这 个 设备 的 RID=0 的 
寄存 器 的 内 容 ( 也 就 是 Vendor ID 寄存 器 ) 。 此 时 ， 设 
备 管理 程序 根本 不 知道 总 线 0 上 都 有 什么 设备 ， 甚 至 
有 没有 设备 。 

(2) 程序 向 C_DATA 寄 存 器 地 址 发 起 读 操作 ， 
要 求 读 出 刚才 要 求 的 内 容 。PCI 总 控制 器 接收 到 这 个 
读 请 求 ， 于 是 从 C_ADD 寄 存 器 中 取出 对 应 的 命令 信 
息 ， 发 现 其 BID 是 0， 而 自己 下 游 的 总 线 的 BID=0。 
所 以 ，PCI 总 控 将 该 命令 转化 成 如 图 7-70 中 所 示 的 [ 选 
通信 号 〈0# 导 线 为 1) +DID+ 其 他 控制 信号 ] 的 信号 组 
合 ， 然 后 拉 低 FRAME# 信 号 表示 一 轮 新 的 数据 传送 开 
始 了 ， 同 时 在 命令 总 线 上 放置 “配置 读 ” 命 令 码 ， 在 
数据 /地 址 总 线 上 放置 [ 选 通 信号 +RID+ 其 他 控制 信号 ] 
组 合 。 总 线 上 如 果真 的 存在 与 选 0# 选 通信 号 相连 的 设 
备 ， 那 么 该 设备 会 感受 到 选 通信 号 ， 于 是 将 RID 和 其 
他 控制 信号 采样 锁 存 ， 并 读 出 RID 号 对 应 的 那个 寄存 
器 ， 也 就 是 Vendor ID 寄存 器 的 数据 ， 返 回 到 总 线 。 

(3) PCI 总 控制 器 将 接收 到 的 内 容 写 入 到 C_ 
DATA 寄 存 器 ， 同 时 将 FRAME# 信 号 拉 高 ， 表 示 本 
轮 数据 传送 结束 。 并 将 结果 返回 给 CPU 核心 的 L/S 单 
元 ， 设 备 管理 程序 成 功 读 取 到 对 应 的 数值 ， 同 时 也 知 
道 B0D0 设 备 是 存在 的 ， 并 且 其 VID 是 多 少 。 然 后 ， 设 
备 管理 器 需要 继续 读 出 该 设备 的 Class Code 配 置 寄存 
器 的 值 以 判断 其 是 否 为 PCI 桥 设备 。 如 果 它 不 是 桥 设 
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将 对 应 的 ID 写 入 PCI 桥 的 配置 空间 寄存 器 中 
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备 ， 那 么 此 时 设备 管理 程序 可 以 选择 继续 读 出 该 设备 
的 其 他 信息 ， 包 括 BAR， 获 得 其 声明 的 待 暴露 寄存 器 
容量 ， 为 其 映射 好 物理 地 址 并 将 物理 地 址 指针 写 回 到 
该 BAR 〈 这 个 过 程 下 文 再 介绍 ) 。 或 者 程序 可 以 选择 继 
续 发 现 BOD1 这 个 设备 是 否 存在 ， 重 复 上 述 过 程 即 可 。 

Са) 持续 上 述 过 程 ， 对 每 个 可 能 的 设备 编号 逐 
一 尝试 读 取 其 配置 信息 ， 如 果 对 应 编号 的 设备 不 存 
在 ， 那 么 这 请 求 就 会 无 人 响应 。 超 过 一 定时 间 之 后 ， 
程序 就 会 得 出 “对 应 编号 的 设备 不 存在 ”的 结论 ， 从 
而 继续 扫描 下 一 个 编号 。 一 旦 程序 发 现 菜 个 设备 是 
一 个 PCI 桥 设备 时 〔 读 取 Header Type 寄存 器 值 发 现 为 
00000001 时 ) ， 那 就 将 当前 正在 扫描 的 总 线 ID СЖ 
到 现在 依然 在 扫描 BID0 中 ) 利用 “配置 写 ” 命 令 写 
入 到 该 桥 的 Primary Bus Number 寄 存 器 中 ， 同 时 ， 把 
当前 总 线 ID+1， 得 到 的 值 写 入 到 该 桥 的 Secondary Bus 
Number 寄 存 器 中 。 此 时 ， 由 于 程序 并 不 知道 该 桥 所 在 
分 支 的 尽头 BID 是 多 少 ， 所 以 Subordinate Bus Number 
的 值 暂时 保持 为 全 0。 此 时 ， 该 桥 至 少 知道 了 自己 的 
上 下 游 总 线 ID 了 。 

(5) 只 要 发 现 一 个 桥 设备 ， 那 么 即便 当前 总 线 
上 还 有 另外 的 设备 ID 没有 扫描 完 ， 也 需要 暂停 对 本 
总 线 的 扫描 ， 转 为 扫描 该 桥 下 游 总 线 的 设备 ， 因 为 
PCI 被 设计 为 深度 优先 的 扫描 方式 。 当 然 ， 如 果 使 用 
广度 优先 的 方式 并 非 不 可 以 ， 这 完全 取决 于 设计 者 的 
倾向 ， 并 不 是 因为 任何 技术 壁垒 而 被 迫 选 择 深度 优先 
的 。 此 时 ， 程 序 会 向 PCI 总 控 的 C ADD 寄存 器 写 入 针 
对 B1D0 设 备 的 配置 读 请 求 。PCI 总 控制 器 分 析 该 请 求 
发 现 其 目标 总 线 ID 并 非 与 自己 相连 的 BID0， 此 时 ， 
它 拉 低 FRAME# 发 起 总 线 事务 ， 同 时 在 命令 总 线 放置 
配置 读 命令 码 。 按 理 说 ，PCI 总 控 应 该 选 通 总 线 0 上 的 
PCI 桥 ， 让 它 来 响应 该 请 求 才 对 。 但 是 这 样 的 话 ，21 
位 选 通 信号 +10 位 的 RID 及 其 他 信息 ， 将 没有 位 来 容纳 
Bus ID。 另 外 ， 这 样 做 也 需要 让 PCI 总 控制 器 知道 PCI 
桥 的 DID 才 可 以 ， 但 是 人 们 最 终 并 没有 这 样 去 设计 ， 
而 是 做 了 如 下 的 设计 。 

(6) PCI 总 控制 器 原封 不 动 将 任何 针对 非 总 线 0 
的 设备 配置 读 请 求 转发 到 总 线 0 上 ， 其 中 之 前 用 于 选 
通信 号 的 部 分 现在 改 为 放置 BID 和 DID 。 那 么 ， 没 有 
了 选 通信 号 ， 总 线 0 上 的 IO 控制 器 又 怎么 知道 该 请 求 
是 发 给 谁 的 呢 ? 在 该 命令 字 的 结尾 ， 使 用 2 位 的 信息 
来 描述 该 命令 是 针对 本 总 线 内 设备 的 配置 访问 请 求 ， 
还 是 针对 本 总 线 下 游 总 线 的 访问 请 求 。 如 果 结 尾 的 2 
个 位 为 00， 则 表示 是 针对 本 总 线 的 配置 访问 请 求 ， 那 


么 本 总 线 上 的 所 有 设备 只 要 判断 这 两 位 为 00， 则 就 必 
须 对 选 通信 号 进行 采样 ， 然 后 根据 采样 结果 选择 接收 
该 命令 还 是 不 做 动作 。 如 果 判 断 出 这 两 位 为 01， 则 表 
示 该 命令 并 非 是 发 给 本 总 线 上 的 IO 设备 的 ， 那 么 IO 
设备 就 不 做 动作 ， 但 是 本 总 线 的 PCI 桥 则 必须 接收 该 
命令 请 求 。 所 以 ， 人 们 将 针对 本 总 线 的 设备 配置 访问 
请 求 称 为 Type00 配 置 请 求 ， 而 将 针对 下 游 总 线 上 设备 
的 配置 访问 请 求 称 为 Type01 配 置 请 求 ， 如 图 7-73 所 示 。 
Type01 配 置 请 求 需要 由 本 总 线 上 的 PCI 桥 设备 来 响应 。 


每 个 IIO 设 备 内 部 可 以 分 为 多 个 子 设备 ， 多 个 
子 设备 之 间 可 以 公用 同一 个 PCI 接 口 收发 数据 ， 比 
如 你 可 以 将 一 个 网 络 控制 器 和 一 个 声音 控制 器 做 到 
同一 张 PCI 卡 上 以 节省 空间 。 此 时 ， 命 令 中 就 需要 
再 增加 一 个 编号 用 来 区 分 该 命令 似乎 发 给 位 于 同一 
个 PCI 接 口 后 面 的 哪个 子 设备 的 。 这 个 区 分 编号 被 
称 为 Function ID。 网 络 控制 器 和 声音 控制 器 为 同一 
个 设备 后 面 的 两 个 Function， 每 个 Function 各 自 都 
有 自己 的 配置 空间 和 内 部 私有 寄存 器 ， 它 们 只 是 单 
纯 地 共享 同一 个 PCI 物 理 接口 。 即 便 对 于 一 张 卡 上 
只 有 一 个 控制 器 的 常规 PCI 设 备 ， 其 也 必须 有 一 个 
Function0 来 表示 。 


(7) PCI 桥 设备 接收 到 这 个 请 求 之 后 ， 会 根据 自 
己 的 上 下 游 BID， 结 合 请 求 中 的 BID， 判 断 请 求 中 的 
BID 是 不 是 就 是 自己 下 游 的 BID。 如 果 是 ， 则 PCI 桥 将 
该 Type01 配 置 请 求 根据 其 中 的 DID 值 转换 成 带 有 对 应 
选 通信 号 的 Type00 配 置 请 求 发 往 自己 下 游 的 总 线 ， 从 
而 将 请 求 转 发 给 目标 设备 。 

(8) Host 端 的 设备 管理 程序 重复 上 述 的 动作 ， 
当 在 某 个 总 线 上 没有 发 现任 何 桥 设备 时 ， 程 序 便 知 道 
这 条 总 线 就 是 尽头 的 最 后 一 条 总 线 了 ， 那 么 程序 可 
以 算出 本 分 支 上 的 每 个 之 前 经 过 的 桥 设备 的 各 自 的 上 
游 、 下 游 和 尽头 总 线 ID， 然 后 对 这 些 桥 设备 重新 发 起 
配置 写 请 求 将 这 些 ID 写 入 到 各 自 的 配置 寄存 器 中 ， 进 
行 收 尾 工 作 。 此 时 ， 该 分 支 上 的 所 有 PCI 桥 设备 均 知 
道 了 自己 的 上 游 、 下 游 和 尽头 ID， 可 以 响应 对 任何 
BID/DID 的 配置 访问 请 求 。 如 果 接 收 到 的 Type01 请 求 
中 的 BID 并 非 自 己 下 游 总 线 的 BID， 但 是 位 于 下 游 ID 
和 尽头 ID 之 间 ， 那 么 就 可 以 判断 出 目标 BID 落 入 了 自 
己 所 在 的 分 支 ， 所 以 将 该 Type01 请 求 直接 转发 到 下 游 
总 线 ， 让 下 游 的 PCI 桥 接力 传递 到 目标 总 线 。 如 果 请 


Type00 Function Register 
ўш 选 通信 号 ID ID 00 
Type01 Device | Function Regi 
реб gister 
киын 保留 不 用 | | ID ID ID da 
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求 中 的 BID 并 没有 落 入 自己 所 在 的 分 支 ， 则 不 响应 ， 
因为 一 条 总 线 上 可 能 有 多 个 PCI 桥 ， 每 个 桥 位 于 不 同 
的 分 支 ， 必 定 会 有 某 个 桥接 收 这 个 请 求 。 

(9) 扫描 达到 一 条 分 支 尽头 之 后 ， 再 返回 该 分 
支 的 上 一 级 总 线 继续 扫描 ， 一 直 返 回 到 Bus0。 则 继续 
完成 Bus0 剩 下 的 Device ID 的 扫描 ， 直 到 将 所 有 PCI 桥 
设备 配置 好 为 止 。 
上 述 过程 被 称 为 PCI 总 线 的 枚 举 和 配置 过 程 。 整 
个 枚 举 过 程 ， 其 实 就 是 Host 端 设备 管理 程序 向 PCI 网 
络 上 进行 “挨个 点 名 ”的 过 程 。 也 就 是 说 Host 端 程序 
会 向 每 个 编号 (不 管 该 编号 对 应 的 设备 有 没有 连接 到 
PCI 网 络 上 ) 发 起 配置 读 请 求 〈 先 尝试 读 编号 为 RID0 
的 寄存 器 ， 也 就 是 Vendor ID) ， 如 果 成 功 拿 到 了 信 
息 ， 证 明 该 编号 对 应 的 设备 在 位 ， 如 果 超 时 没 拿 到 信 
息 ， 则 表明 网 络 中 该 编号 的 设备 不 存在 〈 实 际 上 ， 此 
时 由 于 无 人 向 总 线 上 返回 任何 数据 ， 所 有 32 根 导线 上 
都 是 高 电 平 ， 也 就 是 32 个 1， 十 六 进 制 则 是 FFFFh， 该 
值 是 一 个 保留 不 用 的 Vendor ID， 如 果 程 序 拿 到 的 是 这 
个 值 ， 就 证 明 该 设备 不 存在 ) 。 设 备 管理 程序 在 发 现 
PCI 桥 设备 之 后 ， 还 会 将 对 应 的 总 线 ID 信息 写 入 到 桥 
的 配置 空间 中 ， 这 些 信息 相当 于 总 线 ID 路 由 表 ， 指 导 
着 PCI 桥 如 何 转 发 和 转换 配置 访问 请 求 。 


PCI 设 备 是 否 需要 知道 自己 的 BID 和 DID? 其 实 
不 需要 。 但 在 后 文 将 要 介绍 的 PCIE 网 络 拓扑 下 ， 每 
个 设备 必须 知道 自己 的 BID 和 DID 是 多 少 ， 而 这 个 
信息 是 靠 设备 自己 从 配置 请 求 中 抓 取出 来 的 ， 详 见 
后 文 。 


7.4.1.4 PCI 设备 寄存 器 的 物理 地 址 分 配 和 路 由 


好 了 ， 至 此 已 经 将 PCI 网 络 的 运行 机 制 解释 得 差 
不 多 了 。 还 剩 下 最 后 关键 的 一 点 ， 那 就 是 将 每 个 IO 
控制 器 的 寄存 器 容量 映射 到 CPU 的 物理 地 址 空间 ， 从 
而 让 程序 可 以 直接 用 Load/Stor 指 令 访问 这 些 寄存 器 。 
上 文中 介绍 过 ， 通 过 对 配置 空间 中 的 BAR 寄 存 器 的 
操作 ， 可 以 明确 知道 其 声明 了 多 少 容量 的 寄存 器 。 然 
后 ， 设 备 管理 器 需要 先 在 系统 地 址 分 配 表 中 查看 哪些 
物理 地 址 已 经 被 其 他 存储 器 占用 了 ， 寻 找 那 些 空闲 的 
物理 地 址 空间 为 对 应 的 BAR 分 配 。 假 设 ， 某 BAR 声 
明了 64KB 的 寄存 器 空间 ， 而 设备 管理 程序 发 现 CPU 
物理 地 址 空间 的 从 1024GB 开 始 往 后 的 64KB 并 没有 人 
占用 ， 其 决定 将 这 块 空间 分 配给 该 BAR， 则 其 在 系统 
地 址 表 中 生成 一 条 新 记录 ， 比 如 指针 1024GB 、 长 度 
64KB、 编 号 为 B0OD8 的 设备 上 的 BAR#1。 

然后 ， 设 备 管理 程序 还 需要 将 新 映射 的 物理 地 
址 指针 更 新 到 CPU 片 内 的 各 种 访 存 网 络 中 的 路 由 表 中 
(通过 配置 这 些 访 存 网 络 对 应 部 件 的 寄存 器 实现 ， 这 
些 寄存 器 会 被 默认 映射 在 某 些 特定 物理 地 址 上 ) 。 只 
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有 这 样 ， 这 些 访 存 网 络 才能 把 CPU 发 出 的 落 入 这 段 物 
理 地 址 的 访 存 请 求 路 由 到 PCI 网 络 总 控制 器 上 。 

最 后 ， 需 要 将 这 些 物理 地 址 映射 到 虚拟 地 址 上 
去 ， 这 个 动作 会 由 该 设备 对 应 的 驱动 程序 来 做 。 驱 
动 程序 会 调用 虚拟 内 存 管 理 程序 提供 的 接口 ， 比 如 
ioremap(O 函 数 将 这 段 物理 地 址 映射 到 内 核 虚拟 地 址 空 
间 中 去 〈 见 第 5 章 图 3-81) 。 该 函数 会 分 配 页 表 ， 在 
页 表 中 生成 新 纪录 ， 建 立 虚拟 地 址 与 物理 地 址 的 映射 
关系 。 这 样 ， 程 序 就 可 以 使 用 虚拟 地 址 来 访问 设备 上 
的 物理 寄存 器 了 。 如 图 7-74 所 示 ， 在 Windows 操 作 系 
统 中 ， 可 以 看 到 每 个 PCLPCIE 设 备 的 寄存 器 被 映射 的 
物理 地 址 ， 图 中 所 示 的 设备 暴露 了 两 段 地 址 ， 分 别 用 
了 两 个 BAR 来 描述 ， 所 以 在 设备 管理 器 中 可 以 看 到 被 
映射 了 两 段 地 址 。 


| 常规 “| 高 级 важ наше 次 源 | 电源 管理 | 


<. Intel(R) Ethernet Connection (3) 1218-11 


资源 设置 (R) 


| 资源 类 型 ”设置 z 
> 内 存 范围 0000000081200000 - 00000000E121FFFF Е 
— 内 存 范围 00000000E123E000 - 00000000B12SEFFF 


7-74 ”暴露 了 两 个 BAR 的 网 卡 设备 


还 没 结束 。CPU 的 访 存 请 求 到 达 了 PCI 总 控制 器 
之 后 ，PCI 总 控制 器 需要 向 下 游 总 线 0 发 起 存储 器 读 / 
写 请 求 总 线 事务 。 那 么 ， 总 线 上 的 IO 控制 器 如 何 知 道 
该 地 址 的 访 存 请 求 是 发 送 给 自己 的 呢 ? 显然 ， 必 须 把 
存储 器 地 址 路 由 表 也 写 入 到 整个 PCI 网 络 上 的 每 个 IO 
控制 器 和 PCI 桥 上 。 

如 图 7-75 所 示 ，PCI 网 络 中 每 个 部 件 都 明确 知道 
自己 接受 哪 段 物理 地 址 的 访 存 请 求 ， 对 应 的 请 求 和 数 
据 就 可 以 按照 正确 的 路 径 被 转发 。 比 如 ， 假 设 CPU 核 
心 发 出 针对 地 址 200 的 访问 ，PCI 总 控 会 从 前 端 网 络 
上 接收 该 请 求 ， 然 后 转发 到 总 线 0。 总 线 0 上 所 有 的 部 
件 对 该 地 址 做 判断 ， 只 有 B0D1 这 个 桥接 受 该 请 求 ， 
因为 200 落 入 了 它 的 路 由 范围 内 。B0D1 向 Bus1 转 发 该 
请 求 ，Bus1 上 的 B1D1 桥 接受 该 请 求 然后 将 其 转发 到 
Bus2，Bus2 上 的 B2D0 这 个 最 终 设备 接受 了 该 请 求 ， 
并 且 判 断 200 号 落 入 了 其 哪个 BAR 声 明 的 空间 ， 然 后 
到 对 应 的 内 部 寄存 器 中 访问 对 应 的 数据 。 

那么 ， 桥 和 IO 设备 的 地 址 路 由 信息 要 被 存放 在 
PER? 在 配置 空间 寄存 器 里 。 在 PCI 桥 的 配置 空间 
中 有 这 样 一 些 字段 用 于 存放 所 接受 的 地 址 范围 的 基 
地 址 和 长 度 信息 。 如 图 7-72 右 侧 所 示 的 PCI 桥 配置 空间 
rR, Memory Base 和 Memory Limit 分 别 存储 基地 址 和 长 
度 。 它 们 描述 了 该 桥 下 游 所 有 层级 总 线 上 的 所 有 IO 设 
备 的 地 址 范围 。 非 桥接 器 设备 ， 则 直接 利用 BAR 来 存 
放 分 配 好 的 物理 地 址 指针 。 也 就 是 BAR 具 有 两 个 作 
用 ， 一 开始 用 来 声明 寄存 器 容量 值 ， 分 配 好 物理 地 址 
后 又 用 来 盛 放 物理 地 址 指针 。 

设备 管理 程序 首先 为 位 于 尽头 总 线 上 的 IO 设备 
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图 7-75 PCI 网 络 根据 访 存 地 址 来 路 由 访 存 请 求 


分 配 物 理 地 址 ， 也 就 是 把 分 配 好 的 物理 地 址 段 的 基地 
址 写 到 对 应 的 BAR 中 ， 长 度 不 需要 额外 记录 ， 因 为 IO 
控制 器 自己 本 来 就 知道 这 个 BAR 当 时 声明 了 多 少 长 度 
的 容量 ， 自 然 会 根据 基地 址 指针 算出 来 应 该 接收 哪 段 
地 址 的 访问 请 求 。 但 是 PCI 桥 可 并 不 知道 自己 所 在 分 
支 的 下 游 所 有 I/O 控 制 器 的 物理 地 址 的 起 始 地 址 和 长 
度 。 所 以 ， 当 完成 了 每 条 总 线 上 全 部 IO 设备 的 物理 
地 址 分 配 之 后 ， 设 备 管理 程序 需要 将 这 些 物 理 地 址 合 
并 成 一 个 大 段 ， 取 其 基地 址 和 总 长 度 ， 然 后 将 其 写 入 
到 该 总 线 上 游 桥 的 Memory Base 和 Memory Limit 寄 存 
器 中 。 

到 此 为 止 ， 已 经 成 功 让 PCI 网 络 运行 了 起 来 。 剩 
下 的 事情 就 是 每 个 IO 设备 的 驱动 程序 如 何 去 读 写 这 
些 设备 的 寄存 器 从 而 实现 IO 控制 了 。 


7.4.1.5 中 期 小 结 


现在 来 总 结 一 下 整个 PCI 网 络 的 基本 运作 机 制 。 
了 PCI 网 络 采用 共享 总 线 方式 ， 多 个 总 线 之 间 可 以 使 用 
桥接 器 互联 ， 拓 扑 形式 是 树 形 拓扑 。 每 个 设备 ， 包 
括 桥接 器 ， 都 有 各 自 的 编号 ，Bus ID. Device ID 和 
Function ID。 每 个 设备 都 有 各 自 的 配置 空间 寄存 器 ， 
用 于 存放 一 些 基本 的 状态 信息 和 配置 信息 ， 包 括 最 关 
键 的 BAR 信 息 。 程 序 采用 配置 读 和 配置 写 命令 来 读 
取 或 者 更 改 配置 空 间 内 的 寄存 器 的 值 。 初 始 时 ， 设 备 
管理 程序 想 要 扫描 到 PCI 网 络 中 的 所 有 设备 和 桥接 器 
的 信息 ， 从 总 线 0、 设 备 0、Function 0 开始 扫描 ， 尝 
试 读 取 其 配置 寄存 器 中 的 内 容 。 配 置 读 写 命令 采用 ID 


路 由 的 方式 被 路 由 到 目标 设备 ， 对 总 线 0 的 扫描 会 被 
PCI 总 控 翻 译 成 Type00 配 置信 号 ， 其 中 包含 选 通信 号 
直接 选 通 对 应 ID 的 设备 ， 如 该 设备 在 位 ， 则 会 返回 配 
置信 息 。 当 扫描 到 桥接 器 时 ， 会 将 该 桥接 器 的 上 下 游 
总 线 ID 通告 给 它 ， 并 转 为 扫描 该 桥接 器 下 游 的 总 线 。 
桥接 器 会 将 非 本 地 总 线 扫 描 的 配置 请 求 转 化 为 Type01 
请 求 ， 以 便 让 下 游 的 桥接 器 不 断 接力 传递 ， 一 直 扫 描 
到 尽头 ， 再 返回 上 一 级 继续 扫描 。 最 后 ， 程 序 将 所 有 
桥接 器 的 上 下 游 、 尽 头 总 线 ID 全 都 配置 好 ， 完 成 整个 
PCI 网 络 的 ID 路 由 信息 配置 。 然 后 ， 程 序 给 每 个 BAR 
中 声明 的 寄存 器 容量 分 配对 应 容量 的 物理 地 址 ， 将 物 
理 地址 的 基地 址 指针 写 入 对 应 的 BAR 中 ， 并 将 桥接 
器 的 Memory Base 和 Memory Limit 寄 存 器 中 配 入 该 桥 
接 器 下 游 所 有 设备 的 物理 地 址 总 范围 的 起 始 地 址 指针 
和 长 度 ， 最 终 完成 整个 PCI 网 络 的 访 存 地 址 路 由 信息 
配置 。 

总 的 来 说 ，PCI 网 络 被 设计 为 用 ID 路 由 方式 来 访 
问 配置 空间 寄存 器 ， 但 是 一 开始 需要 在 设备 扫描 枚 举 
期 间 先 建立 起 ID 路 由 信息 ， 才 能 访问 到 对 应 设备 的 
配置 信息 。 而 访问 配置 空间 寄存 器 的 目的 又 是 为 了 获 
取 最 关键 的 BAR 信 息 ， 根 据 BAR 来 分 配 物理 地 址 ， 
然后 再 建立 起 访 存 物 理 地 址 的 路 由 信息 ， 完 成 整个 
了 PCI 网 络 的 初始 化 工作 。 访 存 物 理 地 址 路 由 指针 ， 如 
果 是 IO 控制 器 ， 则 被 写 入 对 应 的 BAR;， 如 果 是 PCI 桥 
接 器 ， 则 需要 先 算出 桥 下 游 全 部 IO 设备 的 物理 地 址 
范围 总 和 ， 然 后 将 指针 和 长 度 值 写 入 Memory Base 和 
Memory Limit 寄 存 器 。 


值得 一 提 的 是 ， 在 有 些 CPU 平 台 下 ， 并 没有 
将 PCI 设 备 的 寄存 器 空间 与 CPU 的 物理 地 址 空间 
融 为 一 体 ， 而 是 将 PCI 网 络 中 的 存储 器 空间 单独 
编 址 。 比 如 ， 给 某 个 BAR 中 声明 的 空间 分 配 了 地 
址 0~ 1024， 并 将 基地 址 0 写 入 该 BAR， 此 时 ， 这 
个 0 表示 的 其 实 是 PCI 网 络 域内 的 存储 器 地 址 ， 而 
非 CPU 物理 地 址 域 中 的 地 址 0。 那 么 CPU 如 何 访 
问 到 PCI 网 络 内 的 这 0~ 1024 字 节 呢 ? 需要 地 址 翻 
译 。 也 就 是 说 ，PCI 主 控制 器 上 实现 一 个 地 址 翻 
译 器 ， 将 0~ 1024 地 址 段 翻译 成 CPU 物理 地 址 比如 
8192 ~ 9216 字 节 ，PCI 主 控制 器 利用 减法 器 ， 每 
次 接收 到 CPU 访问 8192 ~ 9216 字 节 区 间 的 访 存 请 
求 ， 就 用 减法 器 对 收 到 的 物理 地 址 减 掉 8192， 得 到 
的 便 是 PCI 网 络 内 的 地 址 ， 再 用 这 个 地 址 向 PCI 网 
络 发 送 请 求 ， 便 被 路 由 到 了 0~ 1024 区 间 。 也 就 是 
说 ，Host 端 的 程序 需要 将 0~ 1024 的 外 部 地 址 映射 
到 CPU 物理 地 址 空间 中 的 某 处 。 不 过 ， 对 于 目前 党 
用 的 Intel CPU 平台 来 说 ， 其 地 址 翻译 的 规则 是 “ 相 
等 ”， 这 在 表面 上 就 像 PCI 网 络 内 的 地 址 与 CPU 物 
理 地 址 空间 融 为 一 体 一 样 。 但 是 其 他 一 些 CPU 平台 
并 不 是 直译 ， 而 有 一 些 其 他 规则 。 本 章 默 认 以 Intel 
平台 的 实现 方式 作为 介绍 根基 。 可 以 更 深 一 步 理 
解 ， 硬 盘 里 存储 的 内 容 其 实 理论 上 也 可 以 做 到 被 
CPU 直接 按照 字 节 粒度 寻 址 ， 但 是 由 于 硬盘 速度 太 
慢 ， 不 适合 直接 寻 址 。 另 外 机 械 硬盘 也 不 适合 一 次 
只 读 写 一 字 节 ， 这 很 不 划算 。 所 以 硬盘 上 的 数据 以 
扇 区 为 单位 独立 编 址 ， 是 一 个 完全 独立 的 存储 器 空 
间 。 而 PCIE 网 络 内 部 的 IO 控制 器 上 的 存储 器 空间 
原本 其 实 也 是 独立 编 址 的 。 也 就 是 说 ，PCIE 网 络 作 
为 一 个 独立 的 网 络 ， 原 本 就 不 关 CPU/Host 端 什么 事 
情 ， 两 个 PCIE 设 备 本 来 就 可 以 直接 通信 ， 用 PCIE 网 
络 内 的 存储 器 地 址 路 由 。 但 是 PCIE 既 然 被 作为 CPU 
连接 更 多 的 IO 设备 ， 所 以 为 了 方便 管理 和 编程 ， 便 
将 PCIE 网 络 地 址 映射 到 CPU 物理 地 址 空间 。 


7.4.1.6 PCIE 网 络 拓扑 及 数据 收发 过 程 


本 书 前 面 章节 中 提 到 过 ， 共 享 总 线 是 个 很 低 效 
的 架构 ， 在 早期 电路 工艺 不 发 达 的 时 候 ， 我 们 也 只 能 
无 奈 了 。 现 在 我 们 不 妨 对 PCI 网 络 进行 三 个 大 改造 : 
将 共享 总 线 改 为 Crossbar 交 换 方式 ， 将 并 行 链 路 通道 
改 为 高 速 申 行 链 路 通道 (接收 和 发 送 各 有 独立 的 链 
路 ， 也 就 是 全 双 工 ); 让 同步 数据 收发 模式 改 为 异步 
队列 化 收发 模式 (也 就 是 总 控制 器 可 以 批量 发 送 针 对 
不 同 目标 设备 的 访 存 请 求 ， 而 这 些 请 求 可 以 乱 序 异步 
地 到 来 ) ， 以 便 大 幅 提 升 吞 吐 量 。 这 就 是 PCI Express 
(PCIE) 标准 的 初衷。 
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并 行 改 串 行 其 实 一 点 问题 也 没有 ， 其 对 系统 架构 
并 无 冲击 ， 因 为 其 完全 是 物理 层 的 改造 。 但 是 共享 总 
线 改 为 交换 ， 这 牵扯 到 了 网 络 层 拓扑 的 改造 ， 会 彻底 
改变 网 络 的 运作 状态 ， 有 些 之 前 依靠 共享 总 线 实 现 的 
功能 ， 在 交换 式 网 络 下 ， 需 要 做 很 大 的 变更 才能 保持 
表面 功能 不 变 。 

我 们 先 来 思考 一 下 换 成 交换 拓扑 之 后 怎么 实现 
PCI 网 络 的 核心 两 个 关键 目标 : 枚 举 设备 并 根据 ID 路 
由 读 取 所 有 设备 的 配置 空间 拿 到 BAR 信 息 ; 向 BAR 中 
配置 访 存 物理 基地 址 信息 ， 建 立 全 网 物理 地 址 路 由 信 
息 。 有 人 可 能 会 说 ， 既 然 网 络 彻底 改变 了 ， 之 前 的 这 
种 模式 是 否 可 以 完全 抛弃 ， 另 立 门户 创立 更 灵活 、 简 
单 、 高 效 的 设备 枚 举 和 路 由 信息 配置 方式 ? 可 以 。 但 
是 这 样 会 给 无 数 的 PCI IO 控制 器 厂商 带 来 麻烦 ， 也 会 
让 那些 之 前 针对 PCI 网 络 编写 设备 管理 程序 、PCI IO 
设备 驱动 程序 的 人 感到 头疼 ， 会 有 很 大 阻力 ， 导 致 新 
标准 根本 推行 不 下 去 。 很 多 设计 其 实 都 是 被 历史 的 包 
裕 所 拖累 的 。 所 以 ， 需 要 尽 可 能 少 做 变更 ， 能 变更 底 
层 就 不 要 变更 上 层 。 所 以 需要 保留 上 层 的 设备 编号 规 
则 、 配 置 过 程 规则 。 如 图 7-76 所 示 为 一 个 假想 中 的 拓 
扑 ， 直 接 使 用 交换 机 连接 所 有 部 件 。 下 面 我 们 就 用 这 
个 拓扑 重复 演绎 一 下 前 文中 的 过 程 ， 看 看 有 哪些 地 方 
需要 变更 。 


PCI 总 控制 器 


ша [е] 
设备 


PCI I/O 
设备 


图 7-76 ”假想 中 的 串 行 、 交 换 式 网 络 

第 一 步 ， 枚 举 设备 。Host 端 设备 管理 程序 依然 通 
过 操控 PCIE 总 控制 器 发 出 Type00 配 置 读 请 求 ， 尝 试 读 
取 BODOFOR0 寄 存 器 的 内 容 ， 也 就 是 总 线 0、 设 备 0、 
功能 0 上 的 配置 空间 中 的 0 号 寄存 器 ， 也 就 是 Vendor ID 
寄存 器 的 值 。PCI 总 控 会 使 用 选 通信 号 来 指定 对 应 ID 
的 设备 接收 该 请 求 ， 但 是 PCIE 是 串 行 交换 网 络 ， 无 法 
像 上 面 这 样 玩 ， 但 是 却 可 以 这 样 玩 : 给 每 个 交换 机 端 
口 后 面 挂 接 的 设备 映射 固定 的 ID， 这 与 PCI 将 选 通信 
号 线 对 应 成 固定 设备 ID 是 一 样 的 。 那 么 ， 假 设 端口 1 
对 应 的 设备 ID 就 是 1， 那 么 交换 机 收 到 PCIE 主 控制 器 
发 来 的 这 个 请 求 ， 可 以 直接 将 其 转发 到 端口 上 。 端 
口 1 上 如 果 有 设备 ， 则 其 直接 读 出 对 应 配置 寄存 器 内 
容 返 回 。 咽 ， 这 样 看 来 很 简单 嘛 ! 非 也 ! 

请 问 : 设备 返回 数据 包 ，PCIE 交 换 机 怎么 知道 
这 个 数据 包 要 被 发 送 到 哪个 端口 ? 还 有 ，PCIE 总 控制 
器 收 到 这 个 数据 包 之 后 ， 如 何 知道 这 个 数据 包 是 哪个 
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设备 发 送 过 来 的 ? 号， 设备 发 送 的 数据 包 难 道 不 都 应 
该 发 送 给 PCIE 控 制 器 连接 的 端口 么 ? 非 也 。PCIE 网 
络 既然 是 个 交换 拓扑 ， 它 是 允许 多 个 设备 之 间 P2P 传 
输 数据 的 ， 并 不 是 所 有 返回 流量 都 要 发 给 PCIE 总 控制 
器 。 另 外 ， 由 于 PCIE 网 络 属 于 异步 收发 模式 ，PCIE 
总 控 可 能 批量 发 出 一 堆 的 请 求 ， 它 并 不 是 只 给 你 发 送 
一 个 请 求 然后 就 在 那 一 直 等 待 你 回复 而 不 管 其 他 设 
备 ， 所 以 ， 任 何 设备 返回 的 数据 必须 标明 自己 是 谁 ， 
这 样 PCIE 总 控制 器 才能 区 分 开 来 。 也 就 是 说 ，PCIE 
上 的 任何 数据 包 都 需要 有 目标 地 址 和 源 地 址 ， 这 与 
PCI 总 线 式 架构 非常 不 同 。 如 果 说 PCI 是 野蛮 方式 ， 则 
PCIE 则 是 高 雅 方式 。 

那么 ，PCIE 主 控制 器 自身 就 需要 占用 一 个 设备 编 
号 ， 我 们 令 之 为 BOD0。 所 以 ， 设 备 管理 程序 也 需要 
从 BOD1 开 始 枚 举 设备 。 

好 ， 那 么 我 们 现在 遵循 高 雅 方 式 。PCIE 主 控制 器 
发 出 的 Type00 配 置 请 求 数据 包 中 ， 会 带 有 PCIE 主 控 自 
身 的 BID 和 DID， 这 是 源 地 址 ， 并 带 有 目标 设备 BID/ 
DID/FID/RID， 这 是 目标 地 址 。 设 备 返回 的 数据 包 
中 ， 接 收 到 的 请 求 中 的 源 地 址 会 被 复制 过 来 作为 目标 
地 址 ， 请 求 中 的 目标 地 址 会 被 复制 过 来 作为 源 地 址 ， 
这 些 地 址 会 被 附 在 数据 包 中 发 送 给 PCIE 交 换 机 。 呈 ， 
难道 每 个 设备 初始 时 是 不 知道 自己 的 设备 编号 的 么 ? 
必须 不 知道 ， 因 为 它 根本 不 知道 自己 会 被 连接 在 哪个 
端口 上 ， 所 以 只 能 从 接收 到 的 配置 读 请 求 中 抓 取出 目 
标 ID。 所 以 配置 读 请 求 的 作用 除了 读 配置 ， 还 能 顺带 
把 设备 编号 通告 给 对 方 设备 。 


在 PCIE 网 络 中 根本 没有 总 线 这 个 东西 ， 为 什么 
编号 中 还 是 有 BID 呢 ? 为 了 兼容 性 维持 传统 的 设备 
管理 习惯 ， 这 样 可 以 更 便捷 地 推广 新 标准 。 主 机 端 
设备 管理 程序 可 能 依然 认为 存在 某 个 总 线 ， 但 这 又 
有 什么 关系 呢 ? 实际 的 数据 收发 过 程 是 交换 式 的 ， 
速度 提升 了 。 所 以 我 们 称 之 为 虚拟 总 线 。 


上 文中 说 过 PCIE 交 换 机 内 部 直接 定 死 “ 哪 个 端 
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口上 连接 着 哪个 ID 的 设备 ”， 所 以 其 天 然 就 存在 一 张 
“设备 ID 一 一 端口 ”路 由 表 。 所 以 ， 交 换 机 接收 到 数 
据 包 之 后 就 可 以 通过 ID 判断 去 向 。 我 们 再 来 看 一 下 两 
个 交换 机 级 连 时 应 该 怎么 处 理 ， 这 就 像 PCI 网 络 中 的 
两 个 总 线 通过 PCI 桥 连接 一 样 。 由 于 另外 一 个 PCIE 交 
换 机 自身 也 有 自己 的 设备 ID 一 一 端口 路 由 表 ， 有 自己 
的 Device0， 所 以 ， 必 须 让 下 游 的 交换 机 整体 作为 一 
个 新 的 Bus， 这 样 才 不 会 导致 DID 冲突 。 如 图 7-77 左 
侧 所 示 ， 我 们 需要 增加 一 个 桥接 器 来 连接 两 个 PCIE 
Switch， 其 运作 模式 与 PCI 总 线 场 景 相 同 。 但 是 ， 桥 
接 器 做 的 事情 似乎 很 简单 ， 就 是 将 配置 请 求 进行 转 
换 ， 并 且 传 送 数据 。 在 PCI 总 线 时 代 ， 必 须 使 用 一 个 
物理 上 的 桥接 芯片 来 桥接 两 个 总 线 。 但 是 在 PCIE 时 
代 ， 如 图 7-77 所 示 ， 两 个 PCIE Switch 本 身 就 是 通过 串 
行 链 路 连接 起 来 的 ， 没 必要 在 链 路 中 间 插 入 一 个 桥 。 
桥接 器 所 做 的 工作 ， 完 全 可 以 在 PCIE Switch 内 部 通过 
虚拟 出 一 个 桥接 器 和 对 应 的 配置 空间 寄存 器 来 完成 。 
具体 的 虚拟 方式 ， 可 以 采用 数字 逻辑 ， 这 就 与 一 个 真 
桥接 器 无 异 了 ， 只 不 过 将 桥接 器 集成 到 了 Switch 中 ， 
但 这 样 做 不 灵活 。 另 一 种 虚拟 方式 是 采用 软件 的 方 
式 ， 在 Switch 中 放置 一 个 微型 的 低 规格 嵌入 式 CPU 核 
心 ， 运 行 一 小 段 代码 ， 负 责 接收 和 转换 配置 请 求 ,但 
是 并 不 处 理 存储 器 读 写 请 求 。 

当 Host 端 设备 管理 程序 枚 举 到 与 下 游 交 换 机 级 连 
的 端口 时 ， 第 一 级 交换 机 中 的 CPU 接 收 这 个 配置 请 
求 ， 做 欺骗 处 理 ， 其 并 不 会 把 该 请 求 真 的 转发 给 下 游 
交换 机 ， 而 是 虚拟 出 一 个 配置 空间 来 (该 配置 空间 
由 于 是 完全 虚拟 的 ， 所 以 可 以 采用 内 部 的 SDRAM 或 
者 SRAM 来 存储 ， 并 不 需要 用 真 的 寄存 器 ， 因 为 这 些 
信号 根本 无 须 被 输入 到 电路 中 做 控制 ) ， 并 将 对 应 
的 配置 寄存 器 内 容 返 回 给 Host 端 ， 让 Host 端 程序 误 认 
为 这 次 枚 举 到 的 是 一 个 桥接 器 设备 。 虚 拟 的 方法 很 
简单 ， 就 是 一 旦 收 到 Host 端 要 求 读 出 Header Type 字段 
的 配置 读 请 求 ， 就 直接 返回 00000001〈 表 示 该 设备 是 
一 个 桥 ) 就 可 以 了 ， 这 就 生成 了 一 个 虚拟 桥 设备 。 所 
有 的 配置 读 写 请 求 ， 均 由 嵌入 式 CPU 上 的 程序 来 负责 
处 理 。 
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这 样 ，Host 端 程序 就 会 给 该 桥 分 配 一 个 上 游 ID 
(0) 和 下 游 ID (1) ， 当 然 ， 这 些 配置 写 入 请 求 都 
会 被 PCIE 交 换 机 中 的 CPU 上 运行 的 程序 保存 起 来 备 
用 ， 交 换 机 完全 是 在 欺骗 Host 端 的 程序 。 然 后 ，Host 
端 程序 继续 枚 举 这 个 桥 后 面 的 设备 ， 也 就 是 会 发 出 
Type01 格 式 的 配置 读 请 求 ， 其 中 目标 设备 编号 会 
B1DOF0OR0， 举 试 读 取 该 桥 下 游 总 线 (Bus1) 上 的 0 
号 设备 。 由 于 刚才 Host 端 程序 已 经 将 Secondary Bus 
Number 字 段 写 入 了 该 虚拟 桥 的 虚拟 配置 空间 寄存 器 ， 
所 以 ， 该 PCIE 交 换 机 至 此 成 功 学 习 到 了 一 条 新 路 由 
信息 “访问 总 线 号 1 的 所 有 请 求 ， 都 转发 给 虚拟 桥 设 
备 所 附属 的 端口 ”。 这 样 ， 针 对 B1DOFOR0 的 Type01 
配置 读 请 求 ， 查 询 路 由 表 之 后 发 现 B1 就 是 该 交换 机 
的 下 一 级 交换 机 ， 所 以 本 交换 机 即将 其 转换 为 Type00 
配置 请 求 ， 并 发 送 到 下 一 级 交换 机 上 。 下 一 级 交换 机 
接收 该 请 求 ， 一 看 是 Type00 配 置 读 请 求 ， 证 明 该 请 求 
的 目标 设备 就 位 于 自己 本 地 ， 所 以 利用 它 本 地 的 “ 编 
号 一 端口 ”映射 规则 ， 根 据 请 求 中 的 DID 字段 ， 发 送 
到 对 应 的 端口 ， 完 成 对 应 的 配置 读 写 访 问 。 如 果 某 端 
口 下 面 没有 连接 设备 ， 那 么 PCIE 交 换 机 需要 主动 返回 
一 个 DID=FFFFh 的 数据 包 。 还 记得 PCI 里 针对 设备 不 
在 位 时 的 处 理 机 制 么 ? PCIE 也 维持 了 这 个 规则 。 

如 果 二 级 交换 机 下 面 继续 级 连 更 多 交换 机 ， 那 
么 配置 过 程 也 是 一 样 的 ， 这 里 不 再 描述 。 最 后 ， 程 序 
依然 是 将 尽头 总 线 号 更 新 到 本 分 支 第 一 个 虚拟 桥 上 的 
Subordinate Bus Number 虚 拟 寄存 器 中 。 这 样 ， 每 一 级 
交换 机 都 会 学 习 到 新 的 路 由 : 凡是 收 到 位 于 某 个 虚拟 
桥 的 Subordinate 总 线 号 与 Secondary 总 线 号 之 间 的 总 线 
号 的 访问 ， 其 全 部 发 送 到 该 虚拟 桥 附属 的 端口 。 关 于 
PCIE Switch 更 详细 的 介绍 请 参考 7.4.1 节 。 

至 此 ， 我 们 先 做 了 一 些 准 备 工作 ， 比 如 定义 新 的 
数据 包 格 式 ， 也 就 是 需要 在 每 个 数据 包 中 携带 有 源 和 
目标 的 设备 编号 ， 并 且 设 备 会 从 配置 读 请 求 中 抓 取 目 
标 编号 字段 从 而 知晓 自己 的 编号 ， 以 便 在 返回 数据 包 
中 将 其 用 作 源 地 址 编号 。 然 后 ， 我 们 在 PCIE 网 络 上 模 
拟 出 了 PCI 网 络 的 第 一 个 设计 关键 点 : 枚 举 设备 、 分 
配 ID、 建 立 全 网 ID 路 由 信息 。 其 实 就 是 利用 了 虚拟 桥 
来 向 Host 端 程序 呈现 出 虚拟 的 假象 ， 然 后 接收 Host 端 
程序 的 路 由 信息 配置 ， 从 而 学 习 到 对 应 的 路 由 信息 。 
至 此 ， 设 备 管理 程序 可 以 成 功 读 出 并 写 入 每 个 设备 的 
BAR， 为 其 分 配 物 理 地 址 空间 。 

第 二 步 ， 我 们 需要 在 PCIE 网 络 中 建立 全 网 的 物 
理 地 址 路 由 信息 。 所 幸 的 是 ， 设 备 管理 程序 貌似 会 搞 
定 大 部 分 的 地 址 分 配 工作 。 既 然 我 们 现在 已 经 有 了 
虚拟 桥 这 个 好 东西 ， 程 序 发 送 的 一 切 针对 虚拟 桥 上 
的 Memory Base 和 Memory Limit 寄 存 器 的 配置 写 入 操 
作 ， 均 会 被 PCIE 交 换 机 保存 在 虚拟 配置 空间 中 。 根 
据 这 个 信息 ， 交 换 机 就 可 以 构建 出 自己 的 物理 地 址 
路 由 表 了 。 需 要 理解 的 一 点 是 ，I/O 设 备 是 可 以 通过 
PCIE 网 络 访问 到 连接 到 CPU 芯片 上 的 DDR SDRAM 主 
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存 的 。 前 文中 介绍 过 的 DMA 数 据 传送 模式 ， 还 记得 
么 ? 程序 将 包含 有 指向 主 存 某 处 缓冲 区 的 指针 的 任务 
书 的 指针 放置 在 队列 中 ，IO 控 制 器 从 队列 中 根据 任 
务 书 指针 到 主 存 中 拿 到 任务 书 ， 然 后 从 中 找到 该 任务 
需要 处 理 的 数据 的 指针 位 置 ， 再 从 主 存 中 将 数据 读 回 
来 。 这 两 次 DMA 读 主 存 的 过 程 ， 完 全 是 IO 控制 器 自 
行 发 起 的 后 台 过 程 ，Host 端 程序 根本 不 知道 1O 控 制 
器 在 DMA。1O 控 制 器 发 出 的 访 存 指令 需要 被 路 由 到 
PCIE 总 控制 器 ， 然 后 进入 CPU 内 部 的 环 网 ， 再 被 环 网 
路 由 到 SDRAM 主 存 去 访 存 。 既 然 如 此 ， 难 道 PCIE 交 
换 器 上 也 需要 保存 整个 CPU 物理 地 址 范围 的 路 由 么 ? 
其 实 并 不 需要 。 前 文中 提 到 过 “默认 路 由 ”的 概念 ， 
也 就 是 “凡是 路 由 表 中 找 不 到 的 地 址 访问 统统 发 送 到 
某 个 端口 ”，PCIE 交 换 器 只 需要 将 默认 路 由 端口 指向 
上 游 端口 即 可 。 

PCIE 交 换 器 可 以 让 连接 在 其 上 的 所 有 设备 形成 一 
个 虚拟 总 线 ， 只 在 与 下 游 交换 器 级 连 的 端口 上 生成 一 
个 虚拟 桥 。 此 时 Host 端 设备 管理 程序 会 感知 到 一 条 总 
线 上 存在 多 个 设备 。 这 种 虚拟 方式 虽然 本 质 上 对 性 能 
不 会 有 什么 影响 ， 但 是 由 于 其 让 上 层 仍然 感知 到 一 条 
虚拟 的 总 线 ， 在 极 少数 的 时 候 ， 上 层 程序 可 能 会 潜在 
的 做 一 些 优化 操作 。 比 如 ， 某 PCIE 网 络 由 两 个 PCIE 
交换 器 级 连 组 成 ， 其 中 有 两 个 网 卡 连接 在 了 第 一 层 交 
换 机 上 ， 那 么 设备 管理 器 会 感知 到 这 两 个 网 卡 处 于 同 
一 条 总 线 上 ， 那 么 程序 会 得 出 一 个 不 准确 的 结论 “这 
两 个 网 卡 由 于 共享 总 线 ， 同 时 访问 会 有 性 能 降低 ”， 
于 是 程序 可 能 采取 其 他 一 些 规 避 手 法 主动 避免 同时 对 
这 两 个 设备 的 同时 访问 。 其 实 这 是 完全 没有 必要 的 
PCIE 交 换 器 的 虚拟 总 线 和 虚拟 桥 的 欺骗 收发 给 上 层 程 
序 传递 了 不 准确 的 信号 ， 另 外 ， 考 虑 到 PCIE 设 备 热 插 
拔 等 特性 的 支持 ， 于 是 目前 的 PCIE 交 换 器 一 般 采 取 如 
图 7-78 中 的 设计 。 既 然 总 线 和 桥 都 可 以 虚拟 出 来 ， 那 
么 为 什么 不 干脆 在 每 个 端口 上 都 虚拟 一 个 桥接 器 出 来 
呢 ? 这 样 的 效果 就 是 ， 每 个 端口 〈 虚 拟 桥 ) 下 面 的 虚 
拟 总 线 上 只 有 一 个 设备 ， 所 以 PCIE 交 换 机 中 的 虚拟 桥 
又 被 称 为 P2P (Peer to Peer) 桥 ， 即 该 桥 下 并 不 是 一 
个 总 线 ， 而 是 直 连 到 唯一 的 一 个 设备 。 

每 个 端口 设置 一 个 虚拟 桥 设备 的 另外 一 个 好 处 
是 ，Host 端 程序 可 以 对 每 个 桥 进 行 配置 以 控制 该 桥 
收发 数据 时 的 行为 ， 这 样 就 可 以 针对 不 同 桥 分 别 
配置 ， 比 如 对 于 级 连 端口 处 的 桥 配 以 不 同 的 优化 参 
Ж, 更 有 利于 系统 的 整体 性 能 。 


至 此 ， 好 像 没有 什么 问题 了 吧 ? 关键 问题 貌似 都 
已 经 解决 了 。 慢 着 。 假 设 Host 端 程序 要 发 出 针对 某 个 
IO 设备 的 BAR 空 间 (BAR 所 描述 的 存储 器 空间 ) аў 
存 器 发 起 读 访 问 ， 该 请 求 被 PCIE 总 控制 器 发 出 后 
PCIE 交 换 器 会 按照 物理 地 址 路 由 表 路 由 到 对 应 的 VO 
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设备 ， 后 者 读 出 对 应 的 寄存 器 内 容 ， 并 
将 其 封装 成 数据 包 传送 给 PCIE 交 换 器 。 
那么 ， 这 个 返回 数据 包 应 该 怎么 被 路 由 
R? 肯定 不 能 按照 地 址 路 由 ， 因 为 这 个 
数据 包 是 作为 应 答 消息 发 送 给 PCIE 总 控 
制 器 的 ， 其 不 是 访问 某 个 地 址 。 显 然 ， 
该 数据 包 需 要 采用 ID 路 由 ， 其 目标 ID 
应 被 IO 控制 器 设置 为 PCIE 总 控制 器 的 
ID。 所 以 ，PCIE 网 络 内 的 一 个 规则 便 
是 : 配置 访问 请 求 采用 ID 路 由 ， 物 理 地 
址 访问 采用 地 址 路 由 ， 针 对 配置 访问 或 
者 物理 地 址 访问 请 求 的 应 答 数据 包 均 为 
了 D 路 由 方式 。 

至 此 ， 我 们 基本 上 在 一 个 串 行 链 路 
+ 交换 式 网 络 上 模拟 了 传统 PCI 网 络 的 大 
部 分 关键 行为 逻辑 。 至 于 其 他 的 一 些 细 
节 ， 大 家 可 以 自行 学 习 ， 这 里 不 再 过 多 
介绍 。 我 们 前 文中 也 说 过 ， 所 有 的 网 络 
通信 系统 的 本 质 都 是 一 样 的 ， 都 可 以 抽 
象 为 7 个 层次 。 关 键 不 同 在 于 ， 不 同 网 
络 的 目的 不 同 ， 传 送 的 数据 种 类 不 同 。 
比如 ， 在 PCLPCIE 网 络 中 ， 配 置 读 写 请 
求 与 物理 地 址 访 存 请 求 就 是 完全 不 同 的 
目的 和 数据 包 格式 、 路 由 方式 。 前 者 采 
用 设备 ID 路 由 ， 而 对 于 后 者 ， 存 储 器 读 
写 请 求 采用 物理 地 址 路 由 ， 而 设备 一 侧 
针对 读 请 求 返回 的 数据 ， 则 必须 依然 采 
用 设备 编号 路 由 的 方式 。 然 而 ， 不 管 是 
什么 消息 请 求 ， 比 如 配置 访问 请 求 、 物 
理 地 址 访问 请 求 ， 它 们 本 质 上 都 是 一 堆 
数据 包 而 已 。 这 些 数据 包 到 了 底层 ， 都 
会 被 当 作 “一 串 数据 ”同等 对 待 〈 也 有 
例外 ， 比 如 PCIE 控 制 器 底层 会 有 一 些 
VIP 通道 队列 ， 让 特殊 的 数据 包 有 限 发 
送 ) ， 同 等 地 去 编 解码 、 加 扰 、 串 并 转 
换 和 传送 。 

PCIE 网 络 的 具体 的 物理 层 、 链 路 
层 、 网 络 层 、 数 据 包 格式 等 ， 都 属于 
PCIE 的 躯干 。 上 文中 所 述 的 那些 机 制 ， 
才 是 PCIE 整 个 体系 结构 的 灵魂 。 躯 干 
кот 可 以 更 换 ， 比 如 使 用 以 太 网 实现 类 似 的 
设备 发 现 、ID 和 物理 地 址 配置 、 路 由 ， 
可 以 吗 ? 完全 可 以 ， 因 为 无 非 就 是 用 以 
太 网 来 传输 对 应 请 求 和 数据 包 ， 这 会 被 
称 为 “PCIE Over Ethemet”。 也 就 是 将 
PCIE 的 上 层 逻 辑 承载 到 以 太 网 底层 躯干 
上 传送 ， 但 是 原生 的 PCIE 身 干 毕竟 在 速 
度 和 其 他 方面 还 是 要 比 以 太 网 更 适合 作 
为 局 部 IO 总 线 ， 所 以 一 般 也 没有 人 去 
搞 PCIE Over Ethernet， 这 没有 必要 。 
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7.4.1.7 PCIE 网 络 的 层次 模型 


下 面 我 们 还 是 以 OSI 模 型 来 作为 分 层 方式 ， 来 看 
一 下 PCIE 这 个 网 络 在 每 一 层 的 做 法 。 这 里 可 以 先 回顾 
一 下 7.3.1 节 中 OSI 模型 的 解析 ， 再 结合 PCIPCIE 网 络 
深入 体会 。 

ө ”应 用 层 和 表示 层 

应 用 层 描述 的 是 所 传送 的 数据 的 业务 层 意义 。 
对 于 PCIE 这 个 网 络 而 言 ， 其 传送 的 无 非 就 是 几 大 类 
数据 : 配置 访问 请 求 、 物 理 地址 访问 请 求 、 配 置 访问 
返回 的 数据 、 物 理 地 址 访问 返回 的 数据 。 由 于 对 配置 
空间 的 访问 的 目的 是 为 了 最 终 对 设备 的 寄存 器 进行 访 
问 ， 所 以 我 们 可 以 认为 PCIE 网 络 就 是 用 来 访 存 的 ， 用 
来 把 大 量 IO 设 备 接 入 ， 然 后 将 所 有 IO 设备 的 地 址 空 
间 与 CPU 物理 地 址 空间 融 为 一 体 ， 建 立 路 由 信息 ， 最 
终 实现 PCIE 设 备 与 CPU 的 地 址 空间 融合 ， 统 一 访 存 。 
这 就 是 PCIE 的 应 用 层 。 按 理 说 ， 应 用 层 的 这 些 配置 
读 写 、 物 理 地 址 访 存 请 求 ， 都 应 该 由 Host 端 的 程序 来 
发 起 ， 比 如 发 起 配置 读 请 求 ， 则 向 C_ADD 寄 存 器 写 
入 对 应 命令 字 ， 然 后 从 C_DATA 寄 存 器 读数 据 即 可 。 
但 是 ，PCIE 总 控制 器 收 到 这 个 事件 之 后 ， 向 后 端的 
PCIE 网 络 上 发 出 的 数据 包 的 格式 ， 可 并 不 是 C_ADD 
寄存 器 里 一 个 简单 的 命令 字 了 ， 而 是 一 套 很 复杂 的 包 
头 格式 ， 下 文中 会 详细 介绍 。 那 么 你 此 时 应 该 深入 思 
考 一 下 ， 是 什么 角色 把 上 游 发 来 的 命令 字 转 换 为 对 应 
的 PCIE 数 据 包 的 ， 而 且 还 需要 根据 不 同 的 命令 ， 生 成 
不 同 的 数据 包 ? 你 可 能 会 说 ， 当 然 是 PCIE 总 控 自 己 转 
换 的 。 是 的 ，PCIE 总 控制 器 内 部 有 专门 的 负责 组 装 数 
据 包 的 电路 模块 ， 其 内 部 存 有 一 些 固定 的 包头 片段 ， 
它 根 据 接收 到 的 命令 字 ， 提 取 所 需 的 各 种 片段 ， 利 用 
MUX/DEMUX 将 这 些 包头 输出 到 数据 包 寄存 器 的 对 应 
字段 位 置 。 不 仅 如 此 ， 该 套 电 路 还 需要 负责 数据 包 的 
收发 匹配 ， 比 如 ， 发 出 一 个 配置 读 请 求 ， 那 么 其 会 期 
待 对 应 的 ID 设备 返回 对 应 的 数据 内 容 ， 并 向 上 游 前 端 
总 线 返 回 数据 。 这 套 专门 用 于 生成 各 种 不 同类 型 请 求 
数据 包 以 及 实现 针对 各 种 事务 请 求 的 收发 控制 的 电路 
模块 ， 被 称 为 PCIE 的 事务 层 (Transaction Layer) 。 

在 前 文中 的 拓扑 图 中 我 们 可 以 看 到 这 两 个 角色 : 
PCIE 网 络 总 控制 器 和 PCIE 控 制 器 。 其 实 这 两 个 角色 
在 硬件 上 并 没有 本 质 区 别 ， 它 们 被 统称 为 PCIE 控 制 
器 。 只 不 过 前 者 加 上 一 个 “ 主 ”， 表 示 其 与 CPU 前 端 
总 线 〈 比 如 Ring) 连接 〈 目 前 普遍 是 被 集成 到 CPU 芯 
片 中 ) ， 后 者 则 泛 指 其 与 外 部 IO 设备 上 的 主 控制 器 
相连 接 〈 目 前 也 是 普遍 被 集成 到 IO 主 控 芯片 中 ) 。 
业界 有 多 家 芯片 制造 商 推出 了 商用 的 PCIE 控 制 器 电路 
模块 ， 诸 如 CPU、 各 种 IO 控制 器 中 集成 的 PCIE 控 制 
器 部 分 ， 其 实 都 是 购 自 这 几 家 厂商 。 一 片 目前 的 商用 
芯片 ， 很 少 是 完全 由 一 个 厂家 自主 设计 其 内 部 的 每 一 
个 模块 的 ， 都 是 利用 已 有 模块 集成 起 来 的 ， 当 然 ， 核 
心 模块 是 由 自己 设计 的 ， 所 以 这 些 模块 之 间 就 存在 对 
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应 的 软 、 硬 件 接口 。 典 型 的 硬件 接口 就 是 寄存 器 一 寄 
存 器 接口 〈 见 前 文 介绍 ) ， 直 接 使 用 并 行 的 、 运 行 在 
某 频率 的 《比如 1 GHz) 的 直 连 导线 或 者 总 线 〈 比 如 
ARM 平 台 常 用 AXI 总 线 等 ) 将 不 同 电路 模块 相互 连接 
起 来 ， 每 个 模块 的 边缘 用 寄存 器 来 直接 接收 和 发 送 数 
据 。 多 个 寄存 器 可 以 组 成 FIFO 队 列 ， 以 便 在 模块 边缘 
形成 缓冲 层 。 再 进一步 ， 可 以 采用 工作 队列 的 方式 来 
与 其 他 模块 传递 信息 ， 其 过 程 就 像 前 文 介绍 过 的 基于 
队列 的 IO 基本 套路 那样 ， 不 仅 两 个 芯片 之 间 可 以 采 
用 这 种 队列 控制 方式 ， 单 个 芯片 内 部 的 多 个 模块 之 间 
也 可 以 采用 。 看 到 这 里 ， 你 应 该 很 深刻 理解 到 ， 计 算 
机 内 部 很 多 东西 本 质 都 是 相同 的 ， 它 们 不 过 是 在 连 起 
来 ， 找 目标 ， 发 数据 ， 在 不 同 维度 上 以 不 同 的 样式 重 
复 着 相同 的 事情 。 

那么 ，PCIE 控 制 器 与 芯片 中 其 他 模块 之 间 的 对 
接 方 式 是 怎样 的 呢 ? 先 看 PCIE 主 控制 器 ， 其 直接 挂 接 
在 CPU 内 部 前 端 总 线 上 ， 接 收 的 控制 方式 只 有 访 存 这 
一 种 。PCIE 主 控制 器 不 但 在 系统 加 电 初期 要 接受 程序 
发 来 的 针对 C_ADD 和 C_DATA 这 两 个 寄存 器 地 址 的 访 
存 请 求 ， 还 需要 在 程序 为 PCIE 网 络 上 所 有 设备 分 配 了 
物理 地 址 范围 之 后 ， 接 受 针对 这 些 物理 地 址 范围 的 访 
存 请 求 。 然 后 根据 这 些 访 存 请 求 ， 生 成 对 应 的 PCIE 
数据 包 发 送 到 后 端 PCIE 网 络 上 。 所 以 ，PCIE 主 控制 
器 与 CPU 之 间 的 接口 ， 就 是 访 存 接口 ， 其 前 端 会 再 附 
属 上 一 个 Ring 网 络 控制 器 ， 从 而 能 够 从 Ring 上 接收 访 
存 请 求 ， 然 后 输送 到 一 个 地 址 译 码 器 。 该 译 码 器 根据 
路 由 信息 判断 是 否 应 该 执行 该 访 存 请 求 ， 如 果 需 要 执 
行 ， 则 生成 对 应 的 PCIE 数 据 包 。 回 顾 图 7-18 中 的 PCIE 
总 控 图 示 ，PCIE 总 控制 器 中 包含 一 个 上 游 网 络 控制 器 
(图 中 的 Crossbar 控 制 器 ， 如 果 是 前 端 是 Ring， 则 其 
是 Ring 控 制 器 ) ， 该 控制 器 与 PCIE 事 务 层 硬件 之 间 的 
硬件 接口 则 是 队列 化 的 寄存 器 一 寄存 器 接口 。 

再 来 看 IO 控制 器 中 集成 的 PCIE 控 制 器 ， 其 前 端 
直接 连 入 PCIE 网 络 ， 所 以 不 需要 再 增加 其 他 接口 控制 
器 ; 其 后 端 会 与 IO 控 制 器 内 部 模块 相连 接 ， 接 收 内 
部 模块 发 来 的 请 求 ， 比 如 响应 配置 读 写 请 求 的 回应 信 
息 、 响 应 存储 器 读 请 求 的 回应 信息 、IO 控 制 器 主动 
发 起 的 访问 主 存 的 DMA 读 写 请 求 ， 等 等 。 每 种 请 求 / 
回应 均 是 一 种 PCIE 事 务 ， 对 应 的 数据 包 中 也 会 有 不 同 
的 事务 标识 。 

IO 控制 器 从 PCIE 控 制 器 得 到 的 是 由 PCIE 主 控 端 
发 送 过 来 的 带 有 事务 标识 的 请 求 数据 包 和 内 容 ， 首 先 
需要 接收 这 些 请 求 并 放 入 FIFO 队 列 等 待 处 理 。 接 收 
的 方式 ， 正 如 前 文中 介绍 网 卡 或 者 存储 IO 控制 卡 时 
那样 ， 采 用 队列 方式 接收 ， 并 采用 驱动 程序 来 负责 向 
了 PCIE 控 制 器 对 应 的 寄存 器 写 入 对 应 的 控制 字 来 控制 收 
发 过 程 。 

然后 ，LIO 控 制 器 需要 处 理 这 些 收 到 的 请 求 ， 将 
这 些 请 求 转化 为 对 内 部 资源 的 访问 ， 比 如 对 配置 空间 
的 访问 、 对 内 部 存储 器 空间 的 读 写 访问 。 这 个 负责 将 
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了 PCIE 事 务 请 求 转化 为 对 内 部 访问 的 模块 ， 可 以 由 软件 
来 完成 ， 比 如 通过 IO 控制 器 内 部 的 嵌入 式 CPU 运行 一 
个 专门 负责 解析 PCIE 事 务 请 求 的 程序 ， 这 个 程序 可 以 
被 称 为 PCIE 控 制 器 的 协议 处 理 层 驱动 程序 〈 与 刚才 负 
责 写 PCIE 控 制 器 寄存 器 实现 单纯 收发 请 求 的 底层 驱动 
程序 不 同 ) ; 或 者 不 采用 软件 方式 ， 而 采用 纯 数字 逻 
辑 电路 来 解析 对 应 的 命令 、 翻 译 成 对 应 的 内 部 操作 ， 
那么 此 时 这 块 电路 可 以 被 称 为 PCIE 处 理 器 单元 (PCIE 
Processor Unit，PPU) ， 当 然 ， 叫 什么 不 重要 ， 不 同 
厂商 叫 法 也 不 同 。 由 IO 控制 器 主动 发 送 的 诸如 读 写 
主 存 的 存储 器 读 写 请 求 、 配 置 访问 回应 等 ， 也 需要 由 
PCIE 协 议 层 处 理 程序 〈 协 议 层 驱动 程序 ) 或 者 PPU 硬 
件 逻 辑 先 将 对 应 的 数据 包 实际 内 容 准 备 好 ， 放 入 队列 
中 ， 然 后 再 由 PCIE 控 制 器 底层 驱动 程序 控制 PCIE 控 
制 器 从 队列 中 将 数据 拿 走 ， 封 装 成 底层 PCIE 数 据 包 发 
送 到 PCIE 网 络 上 。 

那么 自然 存在 一 个 问题 : I/O 控制 器 内 部 的 PCIE 
协议 处 理 程序 需要 将 数据 包 准 备 到 什么 程度 ? 实际 
上 ， 只 需要 准备 实际 内 容 ， 并 将 该 内 容 所 属 的 事务 
类 型 〈 比 如 存储 器 读 写 、 配 置 读 写 回应 等 ) 、 源 
和 目标 设备 编号 或 者 访 存 存储 器 地 址 ， 一 并 通知 给 
PCIE 控 制 器 就 可 以 了 。 具 体 就 是 将 数据 所 在 的 存 
储 器 (I/O 控制 器 内 部 的 存储 器 ) 指针 以 及 事务 类 
型 描述 在 Descriptor 〈 见 前 文 介 绍 ) 中 即 可 ，PCIE 控 
制 器 底层 驱动 程序 会 将 队列 头 / 尾 指针 写 入 到 PCIE 控 
制 器 对 应 的 寄存 器 中 ， 从 而 通知 后 者 从 队列 中 获取 
Descriptor 并 从 中 解析 出 要 做 的 事情 和 对 应 数据 所 在 位 
置 ， 然 后 在 进行 下 一 步 的 封包 处 理 。 这 个 过 程 正 是 我 
们 前 文中 介绍 过 的 1/O 的 基本 套路 。PCIE 也 不 例外 ， 
只 不 过 PCIE 传 递 的 数据 是 访 存 、 配 置 读 写 请 求 等 事 
务 ; 网 络 1/O 控 制 器 传递 的 是 IP、ICMP、ARP 等 协议 
事务 ; SAS 存 储 类 I/O 控 制 器 传递 的 是 SCSI 读 写 等 事 
务 。 但 是 对 于 网 卡 IO 场 景 ， 上 层 协议 会 负责 将 IP 包 
整个 封装 好 ， 甚 至 IP 协 议 栈 还 需要 把 以 太 网 帧 头 也 封 
好 ， 然 后 再 让 网 卡 发 送 ， 网 卡 只 需要 附 上 对 应 的 校 验 
信息 即 可 。 对 于 SAS 存 储 类 IO 场景 ，SCSI 协 议 层 会 准 
备 好 对 应 的 SCSI 命 令 描 述 包 ， 而 剩 下 的 则 交 给 SAS r 
O 控 制 器 来 封装 ， 包 括 SAS 帧 头 的 生成 等 ， 可 见 SAS V 
O 控 制 器 做 的 事情 要 比 以 太 网 MO 控制 器 多 一 些 。PCIE 
网 络 的 方式 与 SAS 类 似 ，PCIE IO 控制 器 硬件 负责 大 
部 分 的 封包 工作 。 下 面 我 们 就 来 看 一 下 一 些 PCIE 网 络 
数据 包 的 典型 结构 。 

负责 封包 的 硬件 其 实 就 是 表示 层 对 应 的 物理 实 
体 ， 谁 封包 ， 谁 就 运行 在 表示 层 ， 谁 就 是 表示 层 。 应 
层 下 发 的 请 求 首先 被 位 于 PCIE 控 制 器 内 部 的 表示 层 
硬件 封装 成 TLP (Transaction Layer Packet) 。TLP 数 
据 包 整 体 被 分 为 三 大 部 分 : Header (包头 ) 、Payload 
(有 效 载荷 ) ~ Digest IE) ， 如 图 7-79 所 
示 ， 其 中 “R” 表 示 保 留 不 用 。 
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图 7-79 TITLP 数 据 包头 格式 


其 中 最 关键 的 一 部 分 就 是 包头 。 包 头 由 PCIE 控 制 
器 内 部 的 表示 层 硬件 根据 应 用 层 下 发 的 命令 中 给 出 的 
参数 〈 被 放 在 队列 的 Descriptor 中 ， 见 上 文 ) 封装 而 
成 。 其 中 主要 字段 的 意义 如 下 。 

Fmt: 格式 ，3 位 长 。 其 是 用 来 描述 TLP 包 头 本 身 
的 长 度 ， 以 及 该 TLP 包 中 是 否 包含 数据 。 有 些 TLP 中 
并 不 包含 实际 数据 ， 比 如 从 PCIE 总 控制 器 一 侧 发 出 的 
配置 读 请 求 。 有 些 则 包含 数据 ， 比 如 针对 配置 读 请 求 
的 回应 数据 包 。 

Type: 类 型 ，5 位 长 。 其 描述 该 TLP 的 事务 类 型 。 
实际 上 ，Type 与 Pmt 字段 一 起 组 合 起 来 描述 TLP 的 
类 型 、 包 头 长 度 、 有 无 数据 这 三 种 信息 ， 如 表 7-1 所 
示 。 其 中 DW 表示 双 字 (Double Word) ， 也 就 是 4 个 
字 节 。3DW 就 表示 12 字 节 长 。 

可 以 看 到 TLP 的 事务 类 型 实际 上 是 有 很 多 种 的 
前 文中 介绍 过 的 存储 器 读 写 、 配 置 空间 读 写 请 求 只 是 
最 主要 最 关键 的 两 种 而 已 。 其 他 类 型 主要 是 一 些 访 存 
方面 的 增强 功能 ， 比 如 带 锁 的 访 存 、 原 子 方式 (原子 
操作 这 个 概念 前 文中 介绍 过 ) 的 访 存 等 。 这 里 就 不 做 
过 多 介绍 了 ， 请 大 家 自行 了 解 。 

ТС: 流量 类 别 (Traffic Class) ，3 位 长 。 由 于 
PCIE 控 制 器 被 设计 为 队列 化 异步 数据 收发 ， 同 时 可 
以 有 多 个 请 求 在 队列 中 等 待 发 送 ， 而 应 用 层 可 能 会 
要 求 某 些 TLP 请 求 比较 关键 需要 优先 处 理 ， 所 以 PCIE 
控制 器 在 底层 硬件 中 维护 了 一 些 独立 的 虚拟 队列 (将 
一 个 大 的 物理 队列 中 的 流量 做 统计 划分 成 不 同 的 组 ， 
每 个 组 就 是 一 个 虚拟 队列 ， 或 者 使 用 多 个 物理 队列 ， 
但 是 一 般 前 者 方式 更 灵活 ) ， 或 者 又 被 称 为 虚拟 通道 
(Virtual Channel, УС) 。 这 些 VC 有 着 不 同 的 优先 
级 ， 只 要 有 请 求 位 于 这 些 通道 里 ， 就 按照 优先 级 顺序 
优先 ， 或 者 在 多 个 VC 都 有 请 求 积压 时 ， 优 先 级 更 高 
的 请 求 有 更 多 机 会 被 发 送 到 PCIE 网 络 上 。PCIE 标 准 
中 最 高 支持 8 个 VC， 但 是 真实 的 设备 出 于 成 本 考虑 通 
常 只 支持 两 三 个 VC。 至 于 这 些 VC 的 优先 发 送 策略 
有 多 种 方式 ， 比 如 严格 优先 级 仲裁 方式 ， 该 方式 非常 
严格 ， 编 号 最 高 的 VC 优先 级 最 高 ， 只 要 VC7 中 有 请 求 
积压 ， 就 永远 轮 不 到 VC0 一 6 中 的 请 求 被 发 送 。 此 外 
还 有 VC 组 仲裁 方式 。 某 种 PCIE 控 制 器 具体 支持 哪 一 
种 VC 仲裁 方式 ， 需 要 在 配置 空间 对 应 的 寄存 器 中 声 


表 7-1 各 种 TLP 类 型 、 包 头 长 度 、 有 无 数据 及 其 对 应 的 FEmt 和 Type 字段 编码 
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TLP 事 务 类 型 对 应 的 Fmt 字 段 对 应 的 Type 字段 


Memory Read Request (MRd) 
Memory Read Lock Request (MRdLk) 
Memory Write Request (MWr) 

IO Read Request (IORd) 

1O Write Request (IOWr) 
Config Type 0 Read Request (CfgRd0) 
Config Туре 0 Write Request (CfgWr0) 
Config Type 1 Read Request (CfgRd1) 
Config Type 1 Write Request (CfgWr1) 
Message Request (Msg) 
Message Request W/Data (MsgD) 
Completion (Cpl) 
Completion W/Data (Ср!р) 
Completion Locked (CplLk) 
Completion W/Data (CpIDLk) 
Fetch and Add AtomicOp Request 


Unconditional Swap AtomicOp Request 


Compare and Swap AtomicOp Request 
Local TLP Prefix 
End to End TLP Prefix 


明 出 来 ， 以 供 设备 管理 程序 读 出 并 知晓 ， 程 序 也 可 以 
通过 配置 这 些 寄存 器 来 设置 具体 的 仲裁 策略 和 参数 。 
具体 不 过 多 介绍 。 

那么 ， 哪 些 / 哪 类 流量 该 使 用 哪些 VC 呢 ? 这 里 就 
需要 一 种 定义 和 映射 方式 ， 先 定义 流量 类 别 ， 也 就 是 
TC， 再 将 对 应 TC 映射 到 对 应 VC。 对 TC 的 定义 完全 
取决 于 应 用 层 ， 比 如 程序 向 PCIE 控 制 器 发 送 一 个 事务 
请 求 ， 比 如 存储 器 读 请 求 ， 其 在 Descriptor 中 的 参数 段 
可 以 明确 指出 本 事务 的 TC 值 是 多 少 ，TC 值 可 以 任意 
指定 ，PICE 标 准 中 最 多 支持 8 个 TC， 也 就 是 TLP 包 头 
中 的 TC 字 段 长 度 为 3 位 (28) 。 假 设 ， 我 们 指定 了 
TC4， 而 系统 设计 者 要 求 ， TC4 类 别 的 流量 全 部 采用 
最 高 优先 级 发 送 ， 那 么 ， 程 序 就 需要 预先 读 出 该 PCIE 
控制 器 的 配置 空间 寄存 器 中 相应 的 用 于 控制 优先 级 策 
略 的 寄存 器 值 ， 判 断 其 支持 哪 一 种 策略 控制 模式 ， 以 
及 支持 多 少 个 VC。 假 设 ， 其 支持 严格 优先 级 仲裁 方 


000 = 3DW, no data; 001 = 4DW, no data 0 0000 
000 = 3DW, no data; 001 = 4DW, no data 00001 
010 = 3DW, w/ data; 011 = 4DW, w/ data 0 0000 
000 = 3DW, no data 00010 
010 = 3DW, w/ data 00010 
000 = 3DW, no data 00100 
010 = 3DW, w/ data 00100 
000 = 3DW, no data 00101 
010 = 3DW, w/ data 00101 
001 = 4DW, no data 10ггг 
011 = 4DW, w/ data 10rrr 
000 = 3DW, no data 01010 
010 = 3DW, w/ data 01010 
000 = 3DW, no data 01011 
010 = 3DW, w/ data 01011 
010 = 3DW, w/ data; 011 = 4DW, w/ data 01100 
010 = 3DW, w/ data; 011 = 4DW, w/ data 01101 
010 = 3DW, w/ data; 011 = 4DW, w/ data 01110 
100 = TLP Prefix DECHEN 
100 = TLP Prefix ТЕБЕ Eo 


式 ， 共 支持 3 个 VC， 也 就 说 ，VC3 拥 有 最 高 优先 级 ， 
那么 ， 程 序 就 再 对 控制 TC 一 VC 映射 的 寄存 器 写 入 新 
值 ， 从 而 告诉 它 “TC4 被 映射 到 了 VC3” (7-80 
所 示 ) ， 这 样 ，PCIE 控 制 器 根据 TLP 中 的 TC 字段 的 值 
就 可 以 将 其 放 入 对 应 的 VC 虚拟 队列 中 了 。 


用 于 记录 和 控制 TC ~ VC 映射 关系 的 寄存 器 并 
不 一 定 必须 放 到 配置 空间 寄存 器 中 ， 它 也 可 以 被 放 
置 在 BAR 所 表述 的 寄存 器 空间 中 。 这 样 ， 设 备 管理 
程序 就 无 法 控制 TC 映射 了 ， 因 为 设备 管理 程序 并 不 
知道 这 个 映射 寄存 器 在 BAR 描 述 空间 中 的 哪个 地 址 
上 ， 甚 至 不 知道 BAR 空 间 里 有 没有 这 个 寄存 器 。 此 
时 ， 该 设备 的 驱动 程序 需要 来 控制 TC 映射 ， 而 这 也 
是 更 好 、 更 有 针对 性 的 方式 。 


Кеш 011 00001000 
VC 值 тс 
TC4/5/6 被 共同 
映射 到 了 VC2 010 00111000 
VC 值 TC 值 
图 7-80 ”记录 有 TC~VC 映 射 关 系 的 寄存 器 


加 大 话 计算 机 一 一 计算 机 系统 底层 架构 原理 极限 剖析 


图 7-80 所 示 为 配置 空间 中 记录 TC 一 VC 映射 关系 
的 寄存 器 ， 图 中 隐 去 了 其 他 字段 ， 只 展示 了 VC 和 TC 
字段 ， 程 序 可 以 向 TC 字 段 写 入 对 应 的 值 来 控制 映射 关 
系 。PCIE 控 制 器 支持 几 个 VC， 就 会 有 几 个 映射 关系 
寄存 器 ， 程 序 只 需要 向 对 应 VC 值 的 寄存 器 写 入 要 映 
射 的 TC 值 就 可 以 了 。PCIE 并 没有 规定 哪些 流量 必须 
使 用 哪个 TC、 别 映射 到 哪个 VC， 这 完全 取决 于 应 用 
层 程序 的 决定 。PCIE 只 管 按照 映射 关系 把 标识 有 对 应 
TC 的 TLP 放 置 到 对 应 VC 中 。 

注意 ，TLP 包 头 中 的 TC 值 采用 3 位 表示 〈000 表 示 
TC0，111 表 示 TC7) ， 而 映射 寄存 器 中 的 TC 值 采用 8 
位 表示 ， 因 为 PCIE 标 准 中 允许 将 多 个 TC 映射 到 同一 
УС, 

虚 通道 的 概念 在 介绍 QPI 网 络 的 时 候 也 介绍 过 ， 
PCIE 和 QPI 在 这 方面 属于 同一 种 路 数 。 这 种 对 流量 做 
优先 级 传送 控制 的 方式 被 称 为 服务 质量 控制 《Quality 
of Service, QoS) 。 一 些 IP 路 由 器 也 支持 QoS， 其 使 
用 的 路 数 与 PCIE/QPI 等 网 络 别 无 二 致 ， 甚 至 连 使 用 的 
名 词 也 都 类 似 ， 比 如 Traffic Class， 等 等 。 

Айг: Attribute， 属 性 。 该 字段 控制 是 否 该 TLP 可 
以 被 用 基于 ID 的 乱 序 形式 发 送 ， 这 里 不 多 介绍 。 

TH: TLP Processing Hint。 该 字段 表示 该 TLP 是 
否 包含 有 用 于 辅助 控制 TLP 处 理 时 的 额外 信息 ， 比 如 
预 读 等 。 这 里 不 多 介绍 。 

тр: ТЕР Digest。 该 字段 用 于 表示 该 TLP 尾 部 是 
否 包含 4 字 节 长 度 的 校 验 信息 。 

ЕР: Poisoned Data， 有 毒 数 据 。 该 字段 是 一 个 比 
较 有 趣 的 控制 字段 ， 用 于 通知 接收 方 该 TLP 中 的 数据 
存在 错误 ， 比 如 校 验 错误 等 。 但 是 错误 的 数据 为 何 还 
会 被 发 出 或 者 接收 呢 ? 因为 有 些 场景 下 ， 设 备 就 需要 
接收 到 这 个 错误 的 数据 包 ， 比 如 设备 需要 知道 数据 具 
体 是 怎么 错 的 ， 或 者 设备 可 以 将 其 载 入 更 强 的 纠 错 模 
块 来 纠正 这 个 错误 ， 或 者 设备 本 身 原本 就 可 以 容忍 这 
个 错误 ， 等 等 ， 总 之 你 不 能 一 发 现 错误 就 擅自 丢弃 这 
个 数据 包 。 

Ай: 又 一 个 Attribute 字 段 ，2 位 长 。 其 中 1 个 位 
用 于 控制 该 TLP 是 否 可 以 用 Relax Ordering 模 式 乱 序 
发 送 ， 具 体 不 多 介绍 了 。 另 一 个 位 用 来 控制 该 TLP 请 
求 访 存 时 ， 是 否 需 要 考虑 向 CPU 前 端 访 存 网 络 上 广 
播 对 应 的 Snoop 以 保证 与 CPU Cache 中 的 数据 的 一 缓 
存 致 性 。 如 果 该 位 为 1， 则 表示 PCIE 总 控制 器 收 到 该 
TLP， 可 以 无 须发 送 CC 广 播 ， 直 接 访 存 ， 这 样 可 以 提 
升 性 能 。 

AT: Address Type。 对 于 虚拟 机 场景 ， 访 存 地 址 
需要 翻译 ， 该 字段 用 于 控制 该 TLP 中 出 现 的 访 存 地 址 
是 否 是 经 过 翻译 的 ， 或 者 该 TLP 的 目的 就 是 让 对 方 翻 
译 该 地 址 。 具 体 不 多 介绍 了 。 

Length: 长 度 。 该 字段 是 关键 的 一 个 字段 ， 描 述 
了 该 TLP 中 数据 有 效 载 荷 的 长 度 值 ， 以 DW СА) 
为 单位 ， 其 值 描述 的 是 “多 少 个 4 字 节 ”， 有 效 载荷 


最 长 为 4KB (1024 个 DW) 。 

Last/First DW Byte Enable: BE 信号 ，4 位 长 。 
在 介绍 PCI 网 络 时 ， 曾 经 提 到 过 BE# 信 号 。 由 于 应 用 
层 传递 的 数据 并 不 都 是 DW 的 整数 倍 ， 假 设 最 后 一 个 
DW 中 只 有 其 中 1、2、3 或 者 全 部 4 字 节 有 效 ， 则 使 用 
Last DW Byte Enable 信 号 中 的 4 个 位 ， 将 对 应 位 置 为 
1， 表 示 该 字 节 有 效 。Last 和 First DW Byte Eable 信 号 
组 合 起 来 可 以 表示 多 种 不 同 场景 的 有 效 字 节 形式 ， 比 
如 图 7-81 所 示 的 场景 。 更 多 细节 请 大 家 自行 查阅 PCIE 
标准 。 
1 
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Last m 

DW 
First DW BE = 1100b (Ch) 
7-81 TLP 数 据 包头 格式 


图 7-79 中 所 示 的 是 一 个 通用 包头 格式 ， 其 中 的 关 
键 控制 字段 集中 在 0 一 3 字 节 。 而 其 他 字 节 的 内 容 ， 
根据 TLP 类 型 (FmttType) 的 不 同 ， 会 有 不 同 的 组 合 
变化 。 下 面 我 们 就 来 介绍 一 些 最 为 常用 的 TLP 的 包头 
格式 。 

Configuration TLP。 图 7-82 所 示 为 配置 读 写 请 求 
的 TLP 数 据 包 格 式 。 其 中 Fmt 为 000， 则 表示 配置 读 
请 求 〈 不 带 数据 ) ，Fmt 为 010， 则 表示 配置 写 请 求 
( 带 数 据 ) 。Type 字 段 为 00100 的 话 ， 则 表示 Type00 
配置 请 求 ，Type 字 段 为 00101 的 话 ， 则 表示 Type01 配 
置 请 求 。 配 置 读 写 请 求 的 TC 字段 恒 为 0%， 因 为 配置 访 
问 TLP 属 于 低 访 问 优先 级 流量 。Leng 了 bh 字 段 恒 为 1。 配 
置 读 写 请 求 中 关键 的 一 个 字段 是 Requester ID， 其 描 
述 的 是 发 起 请 求 一 侧 的 BID、DID 和 FID 。Tag 字 段 也 
是 比较 关键 的 一 个 字段 ， 由 于 PCIE 总 控制 器 可 以 批 
量 发 出 多 个 事务 请 求 给 不 同 的 IO 设备 ， 那 么 就 需要 
一 种 机 制 来 追踪 每 个 事务 的 完成 情况 。PCIE 控 制 器 
每 发 出 一 个 事务 请 求 ， 就 为 其 附 上 一 个 Tag 编 号 ， 对 
方 收 到 该 请 求 并 回应 时 也 需要 使 用 相同 的 Tag， 这 样 
发 送 方 就 可 以 完成 这 轮 事务 并 释放 这 个 Tag (该 Tag 可 
以 给 后 续 发 出 的 事务 使 用 ) 。Requester ID+Tag 共 同 
被 称 为 Transaction ID。 有 时 候 针 对 某 个 请 求 可 能 会 产 
生 多 个 Completion TLP。 比 如 请 求 方 发 起 存储 器 读 请 
求 ， 读 取 长 度 为 4KB 的 数据 ， 请 求 执行 方 返回 数据 的 
时 候 ， 可 能 并 不 会 将 这 4KB 的 数据 封装 到 单一 的 一 个 
TLP 中 ， 一 次 性 接收 更 多 的 数据 意味 着 要 准备 更 大 的 
缓冲 存储 器 ， 会 增加 成 本 和 设计 难度 ， 而 是 会 将 其 拆 
分 成 诸如 8 个 512 字 节 的 数据 分 片 〈 目 前 多 数 PCIE 设 
备 的 TLP Payload 长 度 为 512 字 节 ， 也 有 长 一 些 的 ) ， 
用 8 个 TLP 返 回 ， 那 么 这 8 个 TLP 的 Transaction ID 是 相 
同 的 。 虽 然 传输 这 8 个 TLP 的 过 程 中 ， 可 能 还 会 有 其 他 
Transaction 的 TLP 乱 入 ， 但 是 由 于 ID 不 同 ， 所 以 这 些 
数据 包 收 到 后 依然 可 以 分 清 。 那 么 ， 这 8 个 TLP 如 果 乱 
序 到 达 ， 接 收 端 会 怎样 ? 答案 是 ，PCIE 不 会 乱 序 发 送 


ом 
Last DW BE = 01115 (7h) 


和 路 由 TLP。 下 文中 你 会 看 到 每 个 TLP 其 实 是 有 一 个 
序号 的 ， 接 收 方 会 严格 按照 序号 来 接收 TLP。 
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7-82 Configuration TLP 数 据 包头 格式 


那么 ， 通 信 双 方 的 PCIE 控 制 器 又 是 如 何 知道 对 
方 的 最 大 可 接受 有 效 载荷 长 度 值 是 多 少 呢 ? PCER 
备 会 在 其 扩展 配置 空间 寄存 器 中 准备 一 组 Maximum_ 
Payload_Size_Supported 寄 存 器 ， 用 于 保存 该 设备 锁 
支持 的 全 部 有 效 载荷 长 度 值 。 这 些 值 是 由 设备 本 身 原 
生 携 带 的 ， 也 就 是 由 设备 本 身 加 电 初 始 化 过 程 中 从 其 
ROM 中 读 出 然后 写 入 到 该 组 寄存 器 中 的 ，Host 端 的 设 
备 管理 程序 读 出 这 组 寄存 器 值 ， 便 知道 该 设备 支持 哪 
些 Payload 值 以 及 对 应 的 最 大 值 是 多 少 。 设 备 还 会 在 
配置 空间 中 准备 一 个 Maximum Payload Size 寄存 器 ， 
该 寄存 器 初始 值 为 空 ， 需 要 由 Host 端 设备 管理 程序 负 
责 填 入 。 也 就 是 说 ， 设 备 管理 程序 在 获知 了 相 邻 的 
两 个 PCIE 控 制 器 各 自 的 Max_Payload Size_Supported 
值 之 后 ， 将 两 者 中 最 小 值 分 别 写 入 两 者 的 Maximum_ 
Payload_Size 寄 存 器 ， 这 样 就 让 双方 知道 了 自己 该 用 
多 少 Payload 值 来 封装 数据 包 了 。 值 得 一 提 的 是 ， 这 
个 参数 并 不 是 一 个 端 到 端的 参数 。 也 就 是 说 ， 如 果 
有 A-B-C-D 四 个 PCIE 控 制 器 级 连 ，A 要 将 数据 发 送 
给 D，A 对 B 发 送 可 能 以 512 字 节 粒 度 发 送 ， 因 为 B 的 
Max_Payload_Size 为 512 字 节 ， 但 是 B 对 C 可 能 以 4KB 
发 送 ， 因 为 C 的 Max Payload Size 为 4KB。 

最 后 的 字 节 8 一 11 四 个 字 节 中 ， 保 存 了 配置 读 写 
请 求 的 另外 一 个 关键 信息 ， 也 就 是 目标 设备 的 BID/ 
DID/FID/RID 这 四 元 组 ，PCIE 网 络 正式 利用 这 个 目标 
ID 对 配置 读 写 请 求 进行 路 由 的 。 

Completion TLP 。 接 收 请 求 的 一 方 完成 了 请 求 
中 所 要 求 的 事务 之 后 ， 需 要 返回 完成 响应 ， 也 就 是 
Completion TLP， 如 图 7-83 所 示 。 该 数据 包 需 要 包含 
Completer ID， 也 就 是 回应 方 自身 的 BID/DID/FID， 
以 及 携带 Requester ID， 也 就 是 当初 发 送 请 求 的 那 一 
侧 的 BID/DID/FID， 同 时 ， 需 要 将 当初 接收 到 的 请 求 
中 的 Tag 字 段 附 到 Completion TLP 中 ， 这 样 请 求 方 就 
知道 该 响应 是 针对 哪个 Tag 的 请 求 了 。 另 外 一 个 关键 
字段 是 Completion Status 字 段 ， 其 给 出 了 该 响应 的 状 
态 。 其 中 ，000 表 示 Successful Completion (SC) , 
001 表 示 Unsupported Request (UR) ，010 表 示 Config 
Request Retry Status (CRS) ，100 表 示 Completer 
Abort (CA) 。 正 常情 况 下 接收 方 会 返回 SC 状态 码 ; 
但 是 如 果 接 收 方 解 析 该 请 求 时 发 现 该 请 求 非法 /无 法 
识别 ， 则 会 返回 UR 状态 码 ， 如 果 接 收 方 由 于 某 种 原 
因 暂 时 没有 资源 来 执行 对 应 的 请 求 ， 则 返回 CRS 状 态 
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码 ， 发 送 方 应 该 重新 发 送 请 求 ， 如 果 接 收 方 在 执行 该 
事务 请 求 时 发 生 了 一 些 错误 导致 无 法 执行 成 功 ， 则 返 
回 CA 状 态 码 。 
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图 7-83 Completion TLP 数 据 包 头 格式 


提示 * 


配置 读 、 配 置 写 、 存 储 器 读 请 求 ， 接 收 方 必 
须 返 回 Completion TLP， 其 中 配置 读 和 存储 器 读 
对 应 完成 TLP 携 带 数 据 Payload， 配 置 写 请 求 对 应 
完成 TLP 不 携带 数据 。 存 储 器 写 请 求 不 需要 返回 
Completion TLP， 只 要 请 求 方 将 写 请 求 TLP 发 送 完 
Ф (被 接收 方 的 PCIE 控 制 器 收入 本 地 缓冲 区 ) ,发 
送 方 即 视 为 该 存储 器 写 已 完成 ， 就 可 以 继续 发 送 队 
列 中 其 他 的 TLP 了 。 那 么 ， 存储 器 写 请 求 为 什么 不 
要 求 返回 Completion TLP 呢 ? 为 了 性 能 考虑 。 因 为 
如 果 每 次 写 入 都 需要 对 方 返回 回应 的 话 ， 这 样 会 产 
生 较 大 时 延 ， 影 响 知 吐 量 。 那 么 有 人 就 担心 了 ， 收 
不 到 回应 ， 发 送 方 如 何 确定 对 方 是 否 已 经 成 功 写 入 
数据 ? 这 笔 数 据 到 底 是 否 已 经 被 写 入 了 存储 器 ? 是 
否 写 入 正确 ? 发 送 方 根本 都 不 知道 。 执 行 该 请 求 的 
了 PCIE 控 制 器 尝试 写 入 存储 器 时 如 果真 的 出 现 错误 ， 
那么 该 PCIE 控 制 器 会 发 送 中 断 信 号 给 本 侧 的 主 控 
CPU 来 处 理 ， 但 是 此 时 能 做 的 事情 不 多 ， 发 送 请 求 
的 一 方 并 无 影响 ， 该 干 哈 还 是 干 哈 。 那 么 这 笔 丢 失 
的 数据 如 何 处 理 ? 这 只 能 依靠 上 层 的 机 制 来 处 理 。 
如 果 当 前 系统 是 存储 系统 ， 则 需要 采用 各 种 Raid 
宛 余 机 制 将 丢失 的 数据 找 回 ; 如 果 是 外 部 网 络 场 
景 ， 那 么 以 太 网 卡 以 及 TCP 传 输 协议 会 校 验 每 个 数 
据 包 ， 这 笔 丢 失 的 存储 器 写 ， 一 定 会 导致 该 数据 包 
校 验 不 一 致 ，TCP 就 会 发 现 这 个 不 一 致 ， 那 么 发 送 
方便 会 重 传 该 数据 。 人 们 将 不 需要 期 待 Completion 
TLP 的 请 求 称 为 Posted Request， 将 期 待 Completion 
TLP 的 请 求 称 为 None-Posted Request。Posted 意 思 就 
是 “已 妥 投 ”的 意思 。 


Memory Read/Write TLP。 图 7-84 所 示 为 存储 器 
读 / 写 TLP。 除 了 那些 必需 的 字段 比如 Requester ID. 
Tag、Length 之 外 ， 存 储 器 读 写 TLP 中 必须 携带 要 访问 
的 存储 器 地 址 。 如 果 该 地 址 是 64 位 地 址 ， 则 需要 16 字 
节 的 包头 ， 如 果 该 地 址 是 32 位 地 址 ， 则 需要 12 字 节 的 
包头 。 

值得 一 提 的 是 ， 可 以 看 到 TLP 中 的 地 址 位 只 有 30 
位 和 62 位 ， 而 并 非 32 位 和 64 位 。 其 原因 是 PCIE 标 准 
中 规定 存储 器 读 写 请 求 访问 的 存储 器 必须 是 以 4 字 节 
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7-84 ”存储 器 读 写 TLP 数 据 包头 格式 


(一 个 双 字 ) 为 一 个 单位 ， 也 就 是 访问 的 必须 是 4 字 
节 的 整数 倍 ， 所 以 TLP 中 的 地 址 描述 的 并 不 是 “起 始 
字 节 地 址 ”而 是 “起 始 双 字 地 址 ”， 低 2 位 就 不 需要 
了 。TLP 中 的 长 度 字段 用 来 描述 本 次 访 存 的 双 字 的 数 
量 值 ， 而 不 是 字 节 数 。 

PCIE 网 络 的 应 用 层 和 表示 层 被 统称 为 事务 
层 CTransaction Layer) ， 是 PCIE 体 系 中 最 重要 
的 一 层 ， 是 其 核心 灵魂 所 在 。 这 样 的 话 ， 应 用 层 
(Application Layer) 这 个 词 便 泛 指 利 用 PCIE 网 络 传 
送 数据 的 那些 器 件 /程序 了 。 应 用 层 和 事务 层 之 间 的 接 
口 方式 上 文中 也 介绍 过 了 。 

@ 会 话 层 和 网 络 层 

会 话 层 是 通信 双方 在 上 层 打 招呼 的 一 种 形式 。 对 
于 PCIE 网 络 本 身 而 言 ， 这 一 层 并 没有 什么 对 应 角色 存 
在 。 这 一 层 更 取决 于 利用 PCIE 网 络 传递 信息 的 通信 最 
终端 ， 比 如 Host 端 程序 和 IO 控制 器 之 间 ， 可 能 存在 
会 话 过 程 。PCIE 网 络 的 网 络 层 ， 就 是 指 网 络 拓扑 、 
编 址 、 寻 址 、 路 由 、 桥 、 交 换 机 等 这 些 角 色 概念 。 这 
些 内 容 咱 们 前 文中 已 经 介绍 过 了 ， 这 里 就 不 过 多 介 
绍 了 。 

ө 传输 层 和 链 路 层 

对 于 PCIE 网 络 来 讲 ， 其 并 没有 将 传输 层 和 链 路 
层 严 格 地 区 分 开 来 ， 因 为 PCIE 的 链 路 层 做 的 事情 非常 
多 而 强大 ， 其 包含 了 传输 层 的 错误 重 传 等 机 制 ， 所 以 
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PCIE 体 系 中 并 没有 单独 定义 传输 层 ， 而 只 定义 了 链 路 
层 这 个 角色 。 相 对 而 言 ， 以 太 网 +TCP/IP 的 区 分 则 很 
明显 ， 以 太 网 不 保障 数据 被 正确 送 到 目的 地 ， 所 以 需 
要 TCP/IP。 人 们 之 所 以 不 将 TCP/IP 传 输 控制 协议 逻辑 
一 同 做 到 网 络 IO 控制 器 内 部 的 原因 ， 还 是 为 了 更 加 
灵活 可 控 ， 因 为 TCPIP 网 络 毕竟 是 全 球 性 质 的 大 互联 
网 ， 而 PCIE 毕 竟 多 数 情况 下 出 不 了 计算 机 的 主板 。 

PCIE 事 务 层 的 各 种 TLP， 到 了 链 路 层 之 后 ， 会 被 
统一 打包 ， 形 成 链 路 层 帧 ， 然 后 发 送 到 物理 层 那 一 堆 
的 编 解码 器 、 加 解 扰 器 、 均 衡器 等 ， 最 后 进入 物理 信 
道上 传输 。 下 面 我 们 就 来 看 一 下 链 路 层 打包 之 后 的 
TLP 是 什么 样子 。 

如 图 7-85 所 示 ，Device Core 指 的 就 是 利用 PCIE 传 
输 数 据 的 器 件 /程序 ， 属 于 应 用 层 。 事 务 层 负责 将 应 用 
层 发 来 的 数据 和 请 求 、 参 数 封装 为 TLP 包 (HDR 表 示 
Header， 包 头 ) ， 也 就 是 红色 部 分 。 这 些 TLP 被 压 入 
PCIE 控 制 器 内 部 的 队列 中 ， 然 后 由 链 路 层 硬件 对 每 个 
待 发 送 的 TLP 包 前 面 加 上 一 段 序列 号 ， 用 于 接收 方 区 
分 每 个 TILP 以 及 它们 的 发 送 顺序 ， 此 外 还 需要 在 整个 
TLP 尾 部 加 上 CRC 校 验 信息 〈 连 序列 号 一 起 校 验 ) 。 
那么 ，PCIE 链 路 层 的 传输 保障 体现 在 哪里 ? 这 就 得 让 
链 路 层 的 悍 将 一 一 ACK/NAK 应 答 / 重 传 协议 出 马 了 。 

如 图 7-86 所 示 ， 左 侧 为 TLP 发 送 方 ， 右 侧 为 接收 
方 。 我 们 先 来 看 发 送 方 。TLP 从 事务 层 的 VC 缓冲 中 被 
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图 7-85 PCIE 网 络 的 4 大 层次 架构 示意 图 
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图 7-86 ACK/NAK 协 议 硬 件 模 块 流程 示意 图 


发 送 到 链 路 层 中 的 ACK/NAK 控 制 模 块 ， 首 先 会 被 载 
入 一 个 叫 作 Assign Sequence Number 的 硬件 模块 。 在 这 
里 ，TLP 被 附加 上 一 个 序列 号 ， 序 列 号 初始 为 全 0， 被 
存放 在 一 个 叫 作 NEXT_TRANSMIT_SEQ (NTS) 的 
12 位 计数 器 中 ， 每 发 送 一 个 TLP， 该 计数 器 就 被 +1， 
加 到 最 大 值 再 返回 0 继续 自 增 。 加 上 了 序列 号 的 TLP 会 
被 发 送 到 LCRC (Link CRC) 计算 模块 ， 对 带 有 序列 
号 的 TLP 整 体 做 CRC 校 验 ， 并 将 4 字 节 的 校 验 信息 附加 
到 TLP 尾 部 。 到 此 ，TLP 就 被 打包 好 了 ， 然 后 会 被 放 
入 一 个 较 大 的 FIFO 缓 冲 区 (Retry/Replay Buffer) 排队 
发 送 。 之 所 以 被 称 为 Retry Buffer 是 因为 TLP 从 这 里 被 
发 送出 去 之 后 还 不 能 立即 就 删 掉 ， 必 须 等 一 会 ， 等 待 
接收 方 发 送 一 个 ACK (Acknowledgment) 通知 ， 证 明 
确实 已 收 到 某 个 序列 号 之 前 的 全 部 数据 包 (ACK 通 知 
中 包含 接收 方 接收 到 的 最 后 一 条 无 误 的 TLP 中 的 序列 
号 ) ， 本 地 暂 存 的 TLP 才 能 被 删 掉 。 为 此 ， 发 送 方 需 
要 记录 明确 的 指针 指向 下 一 个 将 要 发 送出 去 的 TLP， 
因为 它 不 一 定位 于 队列 头 部 ， 队 列 头 部 可 能 被 那些 还 
没收 到 应 答 回执 的 TLP 继 续 占 用 了 。 

再 来 看 接收 端 。 发 送 方 从 Retry Buffer 中 发 出 一 
条 TLP 之 后 ， 该 TLP 经 过 链 路 ， 被 接 后 方 收 到 后 ， 第 
一 件 事 就 是 做 CRC 校 验 。 如 果 校 验 成 功 ， 则 进入 第 
二 个 判断 步骤 ， 判 断 该 TLP 的 序列 号 是 不 是 自己 想 接 
收 的 那个 序列 号 。 有 个 规则 必须 明确 : 一 个 PCIE 链 
路 的 两 端的 PCIE 控 制 器 ， 必 须 按照 序列 号 的 顺序 一 
个 一 个 传送 TLP。 比 如 ， 接 收 方 如 果 接 收 到 序号 为 1 


的 TLP， 那 么 它 会 将 1 再 加 上 1， 将 结果 存 到 一 个 名 为 
NEXT_RCV_SEQ (NRS) 的 寄存 器 中 。 如 果 再 接收 
到 一 个 TLP， 那 么 就 将 该 新 TLP 的 序号 与 NRS 寄 存 器 
中 的 值 相 比 较 。 如 果 比 较 结果 相等 ， 那 该 TLP 正 是 想 
要 的 ， 会 被 直接 发 送 到 接收 方 事务 层 缓冲 中 ， 后 者 再 
向 应 用 层 传递 ， 同 时 将 NRS 的 值 +1。 如 果 比 较 结果 
小 于 NRS 中 的 值 ， 那 证 明 发 送 方 之 前 发 送 过 该 TLP， 
本 次 又 尝试 发 送 ， 其 原因 可 能 是 接收 方 给 发 送 方 的 
ACK 通 知 本 身 并 没有 被 接收 方 收 到 ， 所 以 接收 方 超 
时 后 重新 传送 了 对 应 的 TLP。 接 收 方 此 时 应 该 直接 丢 
弃 该 TLP， 并 且 向 发 送 方 再 发 送 一 个 ACK 通 知 ， 该 通 
知 中 将 包含 NRS 当 前 的 序列 号 值 。 发 送 方 接收 到 后 便 
会 知道 “所 有 该 序列 号 之 前 的 TLP 都 已 经 收 到 了 ”， 
那么 就 将 Retry Buffer 中 暂 存 的 、 序 列 号 小 于 该 值 的 所 
有 TLP 删 掉 。 如 果 接 收 到 的 TLP 中 的 序列 号 大 于 NRS 
中 的 值 ， 这 证 明 什么 ?比如 接收 方 认为 下 一 个 应 该 
收 到 5 号 包 〈 也 就 是 说 5 号 包 从 来 没 被 接收 到 过 ) ， 
而 却 收 到 了 7 号 包 ， 这 违背 了 TLP 必 须 按 照 顺 序 发 送 
的 原则 ， 所 以 接收 方 此 时 会 发 送 一 个 NAK (Negative 
Acknowledgment) 消息 ， 该 消息 中 会 包含 接收 方 最 后 
接收 到 的 无 误 的 TLP 序 列 号 ， 也 就 是 5-1=4。 发 送 方 
收 到 该 消息 ， 便 会 知道 “4 和 4 之 前 的 都 收 到 了 ”， 将 
对 应 TLP 删 除 ， 然 后 重新 从 4 号 包 开始 发 送 。 也 就 是 
说 ，NAK 一 举 两 得 ， 既 通知 了 发 送 方 已 经 收 到 几 号 包 
了 ， 又 告诉 了 发 送 方 重新 发 送 这 个 号 之 后 的 包 。 如 果 
接收 方 对 收 到 的 TLP 校 验 失 败 ， 则 接收 方 会 发 送 一 条 
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NAK 消 息 给 发 送 方 ， 发 送 方便 会 重新 从 断 点 继续 发 送 
数据 。 

TLP 的 接收 方 并 不 一 定 每 接收 到 一 个 TLP 就 必 
须 得 返回 一 个 ACK (无 误 的 话 ) 或 者 NAK (有 误 的 
W) ， 这 样 非常 浪费 链 路 带宽 。 它 完全 可 以 积攒 一 
定量 的 TLP 之 后 ， 只 发 送 一 次 ACK 便 把 这 些 积攒 的 
TLP 都 给 ACK 了 ， 因 为 ACK 中 的 序列 号 本 来 的 意思 
就 是 “这 个 序列 号 及 之 前 序列 号 的 所 有 TLP 均 已 成 功 
收 到 ”。 那 么 积攒 多 少 TLP， 或 者 说 积攒 多 长 时 间 之 
后 ， 必 须发 出 一 个 ACK 呢 ?这 个 限制 体现 在 TLP 接 收 
方 的 ACK/NAK Latency Timer 计 数 器 中 。 接 收 方 每 发 
出 一 个 ACK/NAK， 该 Timer 就 被 重 置 并 重新 计数 ， 一 
直到 计数 到 达 上 限 ， 则 触发 接收 端 再 发 送 一 个 ACK/ 
NAK。PCIE 体 系 规范 中 有 对 该 计数 器 值 的 描述 ， 大 
家 可 自行 了 解 。 

图 7-87 所 示 为 ACK/NAK 数 据 包 的 结构 ， 其 并 没 
有 较 大 尺寸 的 包头 ， 而 只 有 1 字 节 的 标识 ，00000000 
标识 ACK，00010000 表 示 NAK， 中 间 3 个 字 节 中 的 高 
12 位 保留 不 同 ， 后 12 位 用 来 承载 序列 号 ， 末 尾 2 字 节 
用 来 CRC 校 验 。 
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再 来 看 发 送 方 接收 到 接收 方 的 ACK/NAK 通 知 后 
的 动作 。 由 于 ACK/NAK 数 据 包 自身 也 有 CRC 校 验 ， 
所 以 接收 到 包 的 第 一 步 便 是 计算 校 验 ， 如 果 校 验 不 通 
过 ， 该 ACK 会 被 直接 丢弃 。 这 样 会 导致 一 个 结果 ， 比 
如 TLP 接 收 端 认为 已 经 发 出 了 针对 5 号 包 的 ACK， 但 
是 TLP 发 送 端 依然 认为 比如 3 号 包 到 5 号 包 这 三 个 数据 
包 还 没有 被 对 方 确 认 ， TLP 接 收 端 不 会 再 次 主动 发 出 
该 ACK 了 。 所 以 ，TLP 发 送 方 应 该 设置 一 个 ACK 接 收 
超时 计时 器 ， 也 就 是 图 7-86 中 的 REPLAY_TIMER, Я 
要 Replay Buffer 中 存在 已 发 出 但 是 尚未 被 删除 的 TLP 
副本 ， 这 个 计时 器 就 一 直 在 计数 。 如 果 接 收 方 收 到 针 
对 Replay Buffer 中 任意 数量 的 TLP 的 ACK/NAK， 则 在 
删除 这 些 TLP 副 本 的 同时 ， 将 该 计数 器 清 零 ， 但 是 只 
要 Replay Buffer 中 依然 有 未 被 应 答 的 TLP 存 在 ， 那 么 
该 计时 器 会 继续 开始 计数 。 最 终 ， 如 果 计 数 超过 计数 
器 上 限 还 未 收 到 ACK/NAK， 则 发 送 方 将 尝试 发 送 所 
有 位 于 Replay Buffer 中 的 TLP。 同 时 ， 每 次 超时 重 传 
ја, REPLAY NUM 计 数 器 将 被 +1， 该 计数 器 用 于 记 
录 重 传 的 次 数 ， 如 果 次 数 超过 了 4 次 ， 则 表明 很 有 可 
能 底层 链 路 出 现 了 问题 ， 则 链 路 层 会 通知 物理 层 重新 
对 链 路 进行 重 置 ， 并 重新 与 对 方 协商 链 路 参数 以 让 链 
路 在 新 参数 下 重新 工作 。 

TLP 发 送 方 会 记录 “最 后 一 个 接收 到 的 ACK 的 
序列 号 ”在 AckD_SEQ 寄 存 器 中 。TLP 发 送 方 如 果 接 


收 到 了 无 误 的 ACK/NAK， 则 开始 下 一 步 判 断 。 如 果 
发 现 其 中 的 序列 号 与 本 地 记录 的 AckD_SEQ 值 相同 ， 
则 再 判断 其 为 ACK 还 是 NAK。 如 果 其 是 ACK， 则 说 
明 ， 自 从 上 一 次 接收 到 无 误 TLP 之 后 ， 再 也 没有 新 
TLP 被 接收 到 ， 则 接收 方 依然 会 在 ACK/NAK Latency 
Timer 计 数 器 的 超时 触发 下 再 次 发 送 ACK。 既 然 没 有 
任何 新 TLP 收 到 ， 那 么 接收 方 发 出 的 ACK 中 依然 会 包 
括 与 上 次 ACK 中 相同 的 序列 号 ， 此 时 ，TLP 发 送 方 接 
收 到 该 ACK 之 后 ， 无 动作 。 如 果 接收 到 的 是 NAK， 而 
且 包 含 与 ACKd_SEQ 寄 存 器 中 相同 序列 号 的 话 ， 那 证 
明 接 收 方 自从 上 次 无 误 接收 到 最 后 一 个 TLP 之 后 ， 又 
有 新 TLP 到 来 。 但 是 这 些 新 TLP 一 个 正确 的 都 没有 ， 
全 都 有 问题 ， 那 么 电路 在 ACK/NAK Latency Timer 超 
时 触发 下 ， 会 发 送 NAK，TLP 发 送 方 接收 到 该 NAK， 
则 必须 触发 将 Replay Buffer 中 的 全 部 未 确认 TLP 副 本 
再 次 发 送 一 遍 。 

如 果 接 收 到 的 ACK/NAK 中 的 序列 号 不 等 于 
ACKd_SEQ 值 ( 那 就 证 明 其 一 定 是 大 于 ACKd_SEQ 
值 ， 因 为 只 能 大 于 等 于 ， 不 可 能 小 于 ) ， 则 证 明 有 一 
批 新 的 TLP 被 确认 了 ， 则 该 序列 号 会 被 更 新 到 ACKd_ 
SEQ 寄 存 器 中 ， 同 时 REPLAY_TIMER 和 REPLAY_ 
NUM 寄 存 器 会 被 清 零 ，Replay Buffer 中 本 次 被 确认 的 
TLP 副 本 会 被 删 掉 。 同 时 ， 还 需要 计算 下 一 次 即将 发 
出 的 新 TLP 的 序列 号 ， 与 接收 方 确认 无 误 的 最 后 一 个 
TLP 之 间 积 攒 了 多 少 个 未 确认 的 TLP， 如 果 大 于 等 于 
2048 个 ， 则 TLP 发 送 方 暂停 从 事务 层 接收 新 TLP， 因 
为 本 地 的 Replay Buffer 不 可 能 被 设计 成 无 限 大 。 

上 述 便 是 ACK/NAK 协 议 的 精髓 所 在 。 其 实 ， 
TCP 传 输 协议 中 也 广泛 使 用 了 ACK/NAK 协 议 ， 其 作 
用 原理 是 类 似 的 ， 只 不 过 其 并 没有 通过 纯 数字 逻辑 
来 实现 ， 而 是 采用 了 在 Host 端 运行 软件 代码 的 方式 实 
现 ， 以 太 网 卡 将 所 有 以 太 网 帧 都 DMA 到 Host 端 的 内 
存 ， 然 后 程序 来 分 析 序列 号 、 来 重 传 对 应 的 TCP 包 。 
PCIE 控 制 器 硬件 ACK/NAK 模 块 中 的 各 个 相关 寄存 
器 ， 就 相当 于 TCP 协 议 在 内 存 中 生成 的 各 个 变量 和 数 
据 结 构 。ACK/NAK 模 块 中 的 那些 判断 、 比 较 逻 辑 ， 
就 相当 于 TCP 协 议 代 码 中 的 那些 if, else if 语句 ， 必 须 
被 载 入 CPU 中 的 逻辑 运算 单元 去 计算 出 结果 ， 然 后 再 
决定 下 一 步 ， 而 ACK/NAK 硬 件 模块 则 是 直接 用 数字 
逻辑 来 实现 这 些 判 断 。 这 里 可 以 再 次 体会 一 下 ， 硬 件 
执行 和 软件 执行 的 区 别 和 本 质 。 

这 里 会 有 个 疑问 。 一 条 链 路 两 端的 PCIE 控 制 器 ， 
由 于 采用 全 双 工 链 路 ， 收 发 链 路 独立 ， 所 以 每 个 PCIE 
控制 器 既 在 发 送 数据 ， 又 在 接收 数据 。 那 么 这 就 意味 
着 ,任何 一 个 PCIE 控 制 器 从 其 接收 电路 上 可 能 会 收 
到 TLP 数 据 包 ， 同 时 也 会 收 到 ACK/NAK 数 据 包 ， 那 
么 电路 是 如 何 判 断 出 这 两 种 数据 包 的 异同 ， 从 而 将 其 
载 入 给 不 同 的 电路 模块 进行 后 续 处 理 的 呢 ? 观 察 图 
7-87 和 表 7-1 后 发 现 ，TLP 数 据 包 的 第 一 个 字 节 可 能 会 
与 ACK/NAK 的 第 一 个 字 节 00000000/00010000 二 进 制 


码 有 重复 。 既 然 如 此 ， 电 路 是 如 何 区 分 TLP 数 据 包 和 
ACK/NAK 数 据 包 呢 ? 难道 要 把 TLP 全 部 包头 中 的 字 
节 分 析 一 遍 ? 这 不 现实 。 

实际 上 ， 链 路 层 会 通知 物理 层 将 TLP 数 据 包头 
部 再 附 上 一 个 1 字 节 的 帧 头 ， 叫 作 “Start of TLP, 
STP”， 而 给 ACK/NAK 数 据 包头 部 附 上 一 个 1 字 节 
的 “Start of DLLP，SDP” 帧 头 ， 并 且 将 任何 上 层 数 
据 包 尾部 附 上 1 字 节 的 END 帧 尾 。 这 样 ， 电 路 只 要 判 
断 帧 头 的 格式 就 可 以 知道 该 帧 是 TLP 还 是 ACK/NAK 
了 。 拥 有 SDP 帧 头 的 除了 ACK/NAK 之 外 ， 还 有 其 他 
一 些 帧 ， 这 些 帧 均 由 链 路 层 自身 生成 〈 应 用 层 、 事 务 
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层 均 感 知 不 到 ) 并 在 链 路 上 传递 。 每 个 帧 都 有 不 同 的 
作用 。 比 如 有 的 用 于 做 流量 控制 ， 将 本 方 的 缓冲 区 状 
态 通 告 给 对 方 ， 对 方 判断 后 决定 以 什么 样 的 频 度 发 送 
TLP; 有 的 则 用 来 做 电源 管理 ， 已 达到 节省 功 耗 的 目 
的 ; ACK/NAK 也 属于 其 中 的 一 员 。 这 些 由 链 路 层 为 
了 传输 控制 、 流 量 控制 、 电 源 管理 而 自行 生成 和 发 送 
的 数据 帧 ， 被 称 为 DLLP (Data Link Layer Packet) 。 
如 图 7-88 所 示 为 各 种 DLLP 一 览 。 上 文 已 经 介绍 了 
ACK/NAK， 而 流量 控制 DLLP 是 另 一 块 非常 重要 的 内 
容 。 由 于 篇 幅 所 限 ， 其 机 制 请 大 家 自行 了 解 ， 本 书 不 
做 介绍 ， 如 图 7-89 所 示 。 


+0 +1 +2 +3 
ШЕЛЕР [01716] 5141 3121 ЕШ ЕНЕН ЛЕЛЕРИ: 
Byte 0 
Byte 4 
Field Name | Header Byte/Bit DLLP Function 
DLLP Type | Byte0, |74] | This code indicates the type of FC DLLP: 
O100b = InitFC1-P (Posted Requests) 
0101b = InitFC1-NP (Non-Posted Requests) 
01106 = InitFC1-Cpl (Completions) 
0101b = InitFC2-P (Posted Requests) 
1101b = InitFC2-NP (Non-Posted Requests) 
1110b = InitFC2-Cpl (Completions) 
10006 = UpdateFC-P (Posted Requests) 
10015  UpdateFC-NP (Non-Posted Requests) 
1010 = UpdateFC-Cpl (Completions) 
Вуіе 0,13] | Must be Ob as part of flow control encoding. 
Byte 0, [2:0] УС ID. Indicates the Virtual Channel (VC 0-7) to 
be updated with these credits, 
HdrFC Byte 1, [5:0] | Contains the credit count for header storage for 
Byte 2, [76] | the specified Virtual Channel. Each credit repre- 
sents space for 1 header + the optional TLP Digest 
(ECRC). 
DataFC Byte 2 [3:0] | Contains the credit count for data storage for the 
Byte3 [70] | specified Virtual Channel. Each credit represents 
16 bytes. 
图 7-89 流量 控制 DLLP 
+0 +1 | +2 +3 
zlelslalal2l1lolzlelslalal2lalolzlelslalalzlalolzlelslalslzlalol 
Byte 0 
Byte 4 


Type Field Type Field 
DLLP Type Мыр Purpose DLLP Type БЕ Purpose 
Ack (TLP Acknowledge) 0000 0000b | TLP transmission integrity InitFC1-Cpl 0110 0xxxb | TLP Flow Control 
Nak (TLP Negative Acknowl- | 00010000b | TLP transmission integrity InitFC2-P 1100 0xxxb | TLP Flow Control 
са 
Бе) InitFC2-NP 1101 0xxxb | TLP Flow Control 
PM_Enter_L1 0010 0000b | Power Management 
InitFC2-Cpl 1110 0xxxb | ТЕР Flow Control 
PM_Enter_L23 00100001 | Power Management 
UpdateFC-P 1000 0xxxb | TLP Flow Control 
PM_Active_State_Request_L1 | 00100011Ь | Power Management 
UpdateFCNP 10010xxxb | TLP Flow Control 
PM_Request_Ack 0010 0100b | Power Management 
UpdateFC-Cpl 1010 0xxxb | TLP Flow Control 
Vendor Specific 0011 0000b | Vendor Defined 
Reserved Others | Reserved 
InitFC1-P 0100 0xxxb | TLP Flow Control 
(xxx = VC number) 
InitFCI-NP 0101 0хххЬ | TLP Flow Control 


图 7-88 各 种 DLLP 一 览 


如 图 7-90 所 示 为 电源 管理 相关 的 DLLP， 用 来 协 
调控 制 两 端的 PCIE 控 制 器 工作 在 何 种 电源 模式 下 ， 细 
节 就 不 多 介绍 了 。 

DLLP 数 据 帧 的 帧 头 为 SDP， 而 TLP 数 据 帧 的 帧 头 
为 STP， 它 们 的 帧 尾 都 是 END， 如 图 7-91 所 示 。DLLP 
的 活动 范围 只 在 一 条 链 路 的 两 端 之 间 ， 其 不 会 跨越 桥 
/交换 机 被 路 由 到 其 他 链 路 上 ， 因 为 其 目的 就 是 服务 
于 本 链 路 两 端的 两 个 PCIE 控 制 器 之 间 的 数据 收发 。 而 


TLP 则 可 能 跨越 整个 PCIE 网 络 被 路 由 。 
Ка. | Header Byte/Bit DLLP Function 


DLLP | Byte0,[20] | Indicates DLLP type. For Power Management DLLPs: 
Type 0010 0000b = PM_Enter_L1 

0010 0001b = PM_Enter_L23 

0010 0011b = PM_Active_State_Request_L1 

0010 01006 = PM Request_Ack 


А 16-Bit CRC used to protect DLLP contents. Calcula- 
tion is based on Bytes 0-3, regardless of whether fields 
are used. 


16-bit | Byte4, [7:0] 
CRC Byte 5, [7:0] 


图 7-90 ”电源 管理 相关 的 DLLP 
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[ 7-91 DLLP 的 生成 和 者 


图 7-92 展 示 并 总 结 了 PCIE 事 务 层 到 链 路 层 的 整体 
过 程 。 上 层 程序 或 者 硬件 ， 采 用 某 种 接口 方式 将 上 层 
发 来 的 请 求 传送 给 PCIE 控 制 器 的 事务 层 硬件 ， 一 般 
来 讲 商用 的 PCIE 控 制 器 模块 都 采用 队列 的 方式 来 获 
取 访 存 、 配 置 读 写 等 各 种 请 求 。PCIE 事 务 层 硬 件 接 
收 到 对 应 的 请 求 信号 和 参数 ， 便 生成 对 应 的 TLP 数 据 
包 ， 并 根据 上 层 下 发 的 参数 将 TLP 放 入 对 应 的 VC 队 
列 中 。PCIE 链 路 层 硬 件 从 对 应 的 队列 中 取出 TLP， 载 


入 ACK/NAK 模 块 加 上 序列 号 ， 然 后 加 入 CRC 校 验 ， 
向 物理 层 发 送 该 数据 包 。 同 时 ， 链 路 层 也 会 发 送 一 些 
DLLP 进 行 传输 控制 、 流 量 控制 和 电源 控制 等 ， 其 中 
流量 控制 DLLP 是 由 事务 层 来 决策 ， 然 后 通知 链 路 层 
发 出 的 ， 并 不 是 由 链 路 层 自 主 决 策 发 出 的 。TLP 在 未 
被 确认 之 前 会 暂 存在 Replay Buffer 中 ， 而 DLLP 并 不 需 
要 确认 即 可 直接 发 送 ， 发 送 控制 电路 利用 MUX 来 进行 
选择 发 送 。 不 管 是 TLP 还 是 DLLP， 它 们 均 被 发 送 到 物 
理 层 加 上 对 应 的 起 始 帧 头 和 结束 帧 尾 ， 然 后 进入 后 续 
的 NMMb 编 码 、 扰 码 等 物理 层 电路 模块 处 理 和 发 送 。 
现在 我 们 将 PCIE 控 制 器 接 入 前 端 访 存 网 络 中 。 
如 图 7-93 所 示 ， 挂 接 在 PCIE 网 络 前 端的 Ring 网 络 控制 
器 从 Ring 上 接收 所 有 访 存 请 求 ， 然 后 通过 队列 发 送 到 
地 址 路 由 部 件 。 该 部 件 经 过 BIOS 或 者 操作 系统 底层 
程序 的 配置 ， 只 接收 PCIE 网 络 中 所 有 设备 所 被 分 配 
的 那些 物理 地 址 的 访问 请 求 ， 然 后 将 其 转发 给 访 存 请 
求 ~PCIE 事 务 请 求 转换 模块 处 理 ， 转 换 成 对 应 的 针 
对 后 端 PCIE 事 务 层 硬件 模块 的 操作 信号 ， 并 放 入 队 
列 中 等 待 后 续 模块 执行 。 反 之 亦 然 ， 将 PCIE 设 备 发 


Memory, I/O, Configuration RAV Requests or Message Requests or Completions 


Software layer 
Transmit 


Transaction layer 
per VC 


TLP Replay 
Buffer 


Data Link layer 


[ 


Physical layer 


Parallel-to-Serial 
Differential Driver 


Data Payload 
= 


(Software layer sends / receives address/transaction type/data/message index) 


Receive 


Flow Control 


Virtual Channel 
Management 


PIT 


Serial-to-Parallel 
Differential Receiver 


Li 
Training 


Port 
Link 


7-92 ”PCIE 数 据 生成 和 发 送 整体 流程 
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47-93 ”将 PCIE 接 入 系统 前 端 访 存 网 络 


起 的 DMA 访 存 TLP 请 求 转 换 为 向 上 游 的 访 存 请 求 并 放 
入 上 游 队 列 中 。 该 模块 内 部 需要 将 PCIE 设 备 DMA 读 
主 存 所 返回 的 数据 与 请 求 该 数据 的 请 求 做 对 应 ， 也 就 
是 将 TLP 中 的 BDF ID 与 该 TLP 转 换 成 的 访 存 请 求 所 在 
队列 的 位 置 序号 做 对 应 。 上 下 游 模块 返回 针对 该 队列 
位 置 请 求 的 数据 时 ， 该 模块 将 该 数据 的 指针 放 入 下 游 
队列 ， 并 将 对 应 的 BDF ID 也 放 入 队列 中 的 Descriptor 
中 ， 然 后 由 PCIE 控 制 器 通过 将 其 封装 成 Completion 
with Data 的 TLP 请 求 发 送 到 PCIE 网 络 上 。 请 注意 ， 
该 转换 模块 输出 的 并 非 是 TLP 数 据 包 ， 而 只 是 描述 信 
息 ， 比 如 请 求 类 型 、 目 标 地 址 等 ， 具 体 的 TLP 由 PCIE 
事务 层 硬 件 来 封装 生成 。Intel 将 图 中 虚线 框 的 部 分 称 
为 RC (Root Complex) 。 


大 家 现在 可 以 回顾 一 下 6.5 节 介绍 的 QPI 网 络 相 
关内 容 ， 你 会 发 现 它 与 PCIE 在 各 层次 上 是 极度 相似 
的 ， 只 是 有 些 描述 方式 和 概念 名 词 不 同 ， 比 如 QPI 
的 VN 其 实 就 是 PCIE 中 的 VC， 等 等 。QPI 中 也 划分 
了 一 些 消息 类 型 ( PCIE 将 其 称 为 事务 ) ， 也 有 TC 
和 VC 的 对 应 关系 ， 等 等 。 但 是 由 于 QPI 属 于 封闭 的 
私有 协议 ， 其 内 部 具体 实现 鲜 为 人 知 ， 但 是 可 以 从 
PCIE 的 实现 中 略 见 一 斑 。 


现在 大 家 可 以 打开 电脑 ， 进 入 设备 管理 器 中 ， 会 发 
现 一 些 匪夷所思 的 现象 。 如 图 7-94 所 示 ， 为 何 位 于 IO 
桥 上 的 SATA 控 制 器 也 有 PCIE 网 络 的 BDF (Bus/Device/ 
Function) ID 地 址 ? 难道 SATA 控 制 器 是 先 连 接 到 PCIE 
IO 总 控制 器 上 ， 作 为 一 个 PCIE 设 备 而 存在 么 ? 并 非 如 
此 。 实 际 上 ， 这 是 Intel CPU 平台 上 的 特殊 处 理 。 

图 7-95 左 侧 所 示 为 Intel 平 台 早 期 时 候 南北 桥 分 离 
时 的 场景 。 其 中 ，MCH 为 Memory Control Hub， 也 就 
是 北桥 : ICH 为 IO Control Hub， 也 就 是 南 桥 。 为 了 


方便 管理 ， 实 现 统一 的 概念 和 视图 ， 南 北桥 上 所 有 的 
控制 器 设备 都 采用 设备 编号 来 管理 ， 所 以 Intel 决 定 直 
接 沿用 PCLPCIE 体 系 中 的 BDF 方 式 给 这 些 设备 编号 ， 
并 且 也 拥有 自己 的 配置 空间 。 只 不 过 其 配置 空间 并 不 
细 分 为 用 配置 读 写 请 求 访问 的 部 分 和 直接 寻 址 的 BAR 
中 描述 的 空间 ， 而 是 直接 使 用 一 段 可 直接 寻 址 的 地 址 
空间 来 同时 承载 配置 信息 和 寄存 器 /缓冲 区 。 这 其 中 ， 
又 有 些 IO 控制 器 的 地 址 是 完全 定 死 的 〈 见 图 7-96 左 
侧 ) ， 桥 内 也 携带 这 些 地 址 的 默认 路 由 条 目 ， 这 些 地 
址 被 映射 在 CPU 物 理 地 址 空间 固定 的 地 方 。 这 些 被 映 
射 的 寄存 器 空间 内 包含 该 IO 控制 器 的 配置 寄存 器 、 
各 种 控制 寄存 器 等 ， 由 对 应 的 驱动 程序 负责 操作 这 
些 寄存 器 。 不 过 ， 由 于 Intel 是 常用 平台 ， 主 流 的 操作 
系统 都 已 经 自 带 了 这 些 IO 控 制 器 的 驱动 ， 这 些 驱 动 
把 这 些 定 死 的 地 址 也 直接 写 死 在 代码 里 。 而 有 些 IO 
控制 器 的 地 址 空间 也 并 未 定 死 ， 可 以 由 程序 (通常 为 
BIOS) 来 配置 内 部 的 路 由 表 ， 将 对 应 设备 的 地 址 映射 
到 某 段 CPU 物理 地 址 空间 上 《〈 见 图 7-96 右 侧 ) ， 具 体 
映射 到 哪里 就 取决 于 BIOS 设 计 者 了 。 

图 7-95 中 可 以 看 到 ， 所 有 南北 桥 内 部 集成 的 IO 控 
制 器 身 处 一 个 大 的 虚拟 的 Bus 0 中 ， 在 B0 虚 拟 总 线 内 存 
在 多 个 虚拟 的 PCIPCIE 设 备 ， 这 些 虚拟 设备 中 的 某 个 
Function 便 对 应 着 一 个 物理 上 的 IO 控制 器 。 当 然 ， 其 实 
每 个 物理 IO 控制 器 可 以 对 应 成 一 个 Device ID， 但 是 这 
样 会 消耗 较 多 的 DID， 用 少量 DID 加 FID 则 更 划算 。 

值得 一 提 的 是 ， 就 连 Memory Controller 也 会 作为 
一 个 虚拟 的 PCIE 设 备 而 存在 ， 对 MC 的 配置 也 是 通过 
了 PCIE 配 置 读 写 请 求 完成 的 。 

图 7-95 右 侧 所 示 为 目前 最 新 的 Intel 平 台 的 IO 桥 
(Platform Control Hub, РСН) 上 的 IO 控制 器 的 BDF 
编号 。 虽 然 每 个 被 集成 到 南北 桥 的 IO 控制 器 拥有 自 
己 的 BDF ID， 但 是 这 并 不 说 明 这 些 南北 桥 上 的 控制 器 
身 处 一 个 PCIPCIE 网 络 中 ， 它 们 实际 上 身 处 在 南北 桥 
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图 7-94 ”SATA 控 制 器 也 具有 PCIE 网 络 的 BDF ID 


Bus:Device:Function 


Function Description 


Bus 0:Device 31:Function 0 


LPC Controller? 


Bus 0:Device 31:Function 2 


SATA Controller #1 


Bus 0:Device 31:Function 3 


SMBus Controller 


Bus 0:Device 31:Function 5 


SATA Controller #2 


Bus 0:Device 31:Function 6 
[Bus 0:Device 29:Function o US Enci Controier s1 | 
Bus 0:Device 26:Function 0 
Bus 0:Device 28:Function 0 


Thermal Subsystem 


USB EHCI Controller #2 
PCI Express" Port 1 


Bus 0:Device 28:Function 1 


PCI Express Port 2 


Bus 0:Device 28:Function 2 


PCI Express Port 3 


Bus 0:Device 28:Function 3 


PCI Express Port 4 


Bus 0:Device 28:Function 4 


PCI Express Port 5 


Bus 0:Device 28:Function 5 


PCI Express Port 6 


Bus 0:Device 28:Function 6 


PCI Express Port 7 


q [505 0:Device 28:Function 7 


Bus 0:Device 27:Function 0 Ы 


Bus 0:бемсе 25:Function 0 Gigabit Ethernet Controller 


Bus 0: Device 22:Function 0 


PCI Express Port 8 
Intel™ High Definition Audio Controller 


Tintel? Management Engine Interface #1 


Bus 0:Device 22:Function 1 


Tntel Management Engine Interface #2 


Bus 0:Device 22:Function 2 IDE-R 


Bus 0:Device 22:Function 3 KT 
Bus 0:Device 20:Function 0 


XHCI Controller 


图 7-95 


内 部 的 特殊 总 线 /Crossbar 网 络 中 ， 其 也 采用 存储 器 地 
址 路 由 方式 。 返 回 包 也 有 可 能 采用 基于 ID 路 由 的 方式 ， 
而 且 很 有 可 能 直接 使 用 了 与 PCIE 类 似 的 BDF ID 方式 。 所 
以 ， 虽 然 这 些 控制 器 在 底层 物理 层 上 与 PCIE 不 同 ， 但 是 
其 上 层 逻 辑 很 有 可 能 是 类 似 甚 至 相同 的 。 由 于 冬瓜 哥 
对 PCH 桥 内 部 的 设计 并 不 了 解 ， 所 以 只 能 猜测 如 此 。 
我 们 来 验证 一 下 。 请 大 家 打开 自己 的 电脑 ( 截 
至 当前 ， 多 数 笔记 本 都 使 用 Intel 的 9 系列 MO 桥 片 ) ， 
打开 设备 管理 器 ， 在 其 中 寻找 如 图 7-96 中 列 出 的 这 些 
设备 ， 查 看 其 所 占用 (被 分 配 ) 的 地 址 空间 状况 。 
如 图 7-97 所 示 ， 冬 瓜 哥 的 电脑 上 的 “受信 任 的 平台 模 
块 ”， 便 是 图 7-96 中 右 侧 所 示 的 TPM on LPC， 该 模块 
的 作用 是 提供 安全 认证 。 在 BIOS 里 设置 的 开机 密码 、 
访问 硬盘 的 密码 等 ， 都 由 该 TPM 模 块 来 管理 。 可 以 
看 到 ，TPM 模 块 的 寄存 器 空间 的 确 被 映射 到 了 固定 的 


南北 桥 分 离 时 代 的 BDF 编 号 以 及 目前 最 新 1O 桥 上 集成 的 控制 器 的 BDF 编 号 


FED4 0000h—FED4 FFFFh 地 址 段 中 。 再 看 一 下 高 精 
度 时 间 计 时 器 (一 种 高 精度 计数 器 ， 可 设置 对 应 的 时 
间 用 于 倒计时 、 计 时 等 用 途 ， 达 到 对 应 时 间 便 触发 中 
断 ) 的 地 址 范围 ， 其 也 的 确 落 入 了 图 7-96 右 侧 所 示 的 
地 址 范围 内 。 


际 上 ， 这 些 设备 的 驱动 程序 会 将 这 些 物理 地 址 映射 
到 操作 系统 内 核 的 虚拟 地 址 空间 区 域 ， 然 后 用 虚拟 
地 址 来 访问 对 应 的 寄存 器 。 


下 面 是 某 台 服 务 器 上 的 部 分 PCIE 设 备 一 览 。 可 以 
在 Linux 操 作 系统 下 通过 lspci 命 令 查看 所 有 的 PCIPCIE 
设备 ， 由 于 名 单 太 长 ， 冬 瓜 哥 只 列 出 一 部 分 比较 有 
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图 7-97 固定 地 址 的 IO 控制 器 一 例 


意思 的 条 目 ， 如 Home Agent、Ring to PCIE、Ring to 
QuickPath。 不 知道 大 家 对 这 些 角色 是 否 还 有 印象 ， 这 
些 都 是 我 们 在 第 6 章 介绍 过 的 多 核心 处 理 器 网 络 中 的 
关键 角色 。 

Intel Corporation Xeon Е5/Соге 17 Integrated Memory 
Controller System Address Decoder 0 

Intel Corporation Xeon Е5/Соге 17 System Address 
Decoder (rev 06) 

Intel Corporation Xeon E5/Core 17 Integrated Memory 
Controller System Address Decoder 1 

Intel Corporation Xeon Е5/Соге 17 Processor Home Agent 
(rev 06) 

Intel Corporation Xeon Е5/Соге 17 Processor Home Agent 
Performance Monitoring (rev 06) 

Intel Corporation Xeon E5/Core 17 Integrated Memory 
Controller Target Address Decoder 0 

Intel Corporation Xeon E5/Core 17 Integrated Memory 
Controller Target Address Decoder 1 

Intel Corporation Xeon E5/Core 17 Integrated Memory 
Controller Target Address Decoder 2 

Intel Corporation Xeon E5/Core 17 Integrated Memory 
Controller Target Address Decoder 3 

Intel Corporation Xeon E5/Core 17 Integrated Memory 
Controller Target Address Decoder 4 

Intel Corporation Xeon E5/Core i7 Ring to PCI Express 
Performance Monitor 

Intel Corporation Xeon Е5/Соге 17 QuickPath Interconnect 
Agent Ring Registers 

Intel Corporation Xeon Е5/Соге 17 Ring to 
QuickPath Interconnect Link 0 Performance Monitor 

Intel Corporation Xeon Е5/Соге 17 Ring to 
QuickPath Interconnect Link 1 Performance Monitor 

е 物理 层 

TLP 和 DLLP 被 链 路 层 下 发 到 由 物理 层 维护 的 一 
个 FIFO 缓 冲 中 暂 存 ， 物 理 层 的 电路 模块 会 识别 FIFO 
中 的 数据 包 是 DLLP 还 是 TLP， 然 后 选择 将 STP 或 者 
SDP 帧 头 加 入 到 数据 包 之 前 。STP/SDP 本 身长 度 为 一 
字 节 ， 其 又 被 称 为 符号 (Character, Symbol) 。 这 些 
符号 被 存储 在 物理 层 电 路 中 的 固定 值 寄存 器 中 ， 使 用 
时 从 中 抽取 然后 输出 。 那 么 ， 帧 头 符号 是 怎么 与 ILP/ 


DLLP 合 起 来 的 呢 ? 实际 上 ， 电 路 并 不 是 现 将 两 者 合 
起 来 存 入 某 个 寄存 器 ， 然 后 再 发 送 到 链 路 上 的 ， 而 是 
头 身分 离 分 别 发 送 ， 通 过 控制 Mux 开 关 ， 帧 头 先 被 传 
送 下 去 ， 然 后 切换 开关 ，TLP/DLLP 的 包 身 再 被 传送 
下 去 。 

PCIE 底 层 采 用 串 行 传输 线路 ， 每 根 线路 被 称 为 一 
个 通道 (Lane) 。 通 道 的 速率 在 PCIE 1.0/2.0/3.0 时 代 
各 有 不 同 ， 每 进化 一 代 ， 速 率 翻 翻 。 目 前 最 新 的 PCIE 
3.0 规 范 下 每 根 线路 的 速率 为 1GB/s。PCIE 规 范 允 许 一 
个 PCIE 控 制 器 使 用 多 个 通道 同时 发 送 数据 ， 其 规则 是 
将 数据 包 按照 1 个 字 节 的 粒度 轮流 依次 载 入 每 个 通道 
上 传输 到 对 端 ， 如 图 7-98 所 示 。 目 前 主流 的 CPU 芯片 
会 提供 大 约 40 个 以 上 的 通道 ， 2/4/6/8/16 个 通道 可 以 
被 绑 定 成 一 个 PCIE 端 口 (Port) 。 比 如 ， 如 果 8 个 通 
道 形成 一 个 端口 ， 那 么 一 个 数据 包 中 的 字 节 会 被 打 散 
在 这 8 个 通道 上 传输 ， 我 们 俗称 该 端口 为 x8 端 口 。 前 
文 的 图 7-19 中 左 侧 竖 着 的 插 模 就 是 PCIPCIE 接 口 的 物 
理 形态 ， 长 度 短 一 些 的 插 槽 可 能 是 x4 甚 至 x2 端 口 ， 长 
度 长 一 些 的 可 能 是 x8 或 者 x16 端 口 ， 具 体 还 得 看 主板 
上 的 标识 或 者 主板 手册 。 


目前 主流 的 PCIE 控 制 器 内 部 最 多 支持 每 个 端口 
有 16 个 通道 ， 也 就 是 x16 端 口 。 其 实 理论 上 可 以 支 
持 到 更 高 ， 但 是 这 样 会 增加 硬件 电路 的 规模 从 而 增 
加 成 本 。 在 图 7-107 中 ， 你 会 看 到 PCIE 器 件 相关 厂 
商 是 如 何 组 织 所 有 通道 的 。 


再 回 到 图 7-98， 可 以 看 到 顶部 蓝 色 的 TLP 共 有 30 
个 字 节 ， 其 中 2 个 序列 号 字 节 以 及 尾部 的 4 个 LCRC 字 
节 是 由 链 路 层 产生 的 。 而 TLP 头 部 的 STP 字 节 /字符 和 
尾部 的 END 字 符 ， 是 由 物理 层 附加 上 的 。STP-TLP- 
END 作 为 一 个 完整 的 数据 帧 ， 被 打 散 在 8 个 通道 上 并 
行 传输 ，STP 字 节 必 须 被 放置 在 该 x8 端 口 的 第 一 个 通 
道上 ， 而 END 字 节 并 不 一 定 能 保证 刚好 放置 在 第 8 个 
通道 上 ， 因 为 TLP 的 长 度 是 不 定 的 。 一 旦 长 度 无 法 匹 
配 ， 那 么 物理 层 需要 将 该 数据 帧 补 齐 ， 也 就 是 在 帧 尾 
部 填充 PAD 字 符 一 直到 第 8 个 通道 ， 如 图 下 方 的 TLP 所 
示 。 对 DLLP 也 是 一 样 的 处 理 方式 ， 不 过 图 中 所 示 的 
DLLP 长 度 刚 好 匹配 通道 的 数量 。 
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图 7-98 ”数据 包 中 的 字 节 在 x8 通 道上 的 排 布 方式 


图 中 还 有 一 些 其 他 控制 字符 ， 比 如 COM、SKP， 
而 且 可 以 看 到 COM-SKP-SKP-SKP 这 种 组 合同 时 在 8 
个 通道 上 传递 了 一 次 。 这 组 字符 集 被 称 为 有 续 字符 集 
С Ordered Set) 。 有 续 字符 集 又 可 以 被 称 为 物理 层 
数据 包 (Physical Layer Packet, PLP) ， 相 对 于 TLP 
和 DLLP。 其 作用 是 为 了 实现 物理 层 的 各 种 动态 参数 
调节 、 状 态 变更 等 。 图 7-99 所 示 为 PCIE 物 理 层 的 控制 
字符 一 览 ， 其 中 有 些 字符 可 以 单独 存在 ， 比 如 STP、 
SDP、END、EDB、PAD， 而 另 一 些 字符 必须 抱团 存 
在 ， 比 如 COM 必 须 与 SKP/FTS/IDL 中 的 一 种 组 成 有 续 
集 ， 才 能 在 链 路 上 发 送 。 所 有 的 有 续集 都 以 COM 字 符 
开头 。 


Name | Name Ee 

COM K28.5 First character in any ordered set. Also used by Rx 
to achieve Symbol lock during training. 

PAD K237 Packet filler 

SKP K280 Used in SKIP ordered set for Clock Tolerance Com- 
pensation 

STP K277 Start of a TLP 

SDP K282 Start of a DLLP 

END K29.7 End of Good Packet 

EDB K307 End of a bad or ‘nullified’ TLP. 

FTS K28.1 Used to exit from LOs low power state to LO 

IDL K28.3 Used to place Link into Electrical Idle state 

EIE K287 Part of the Electrical Idle Exit Ordered Set sent 
prior to bringing the Link back to full power for 
speeds higher than 2.5 GT/s 


图 7-99 ”由 物理 层 生成 并 插入 的 控制 字符 一 览 


COM-SKP-SKP-SKP 有 续集 的 作用 是 进行 时 钟 补 
偿 ， 避 免 由 于 收发 双方 的 电路 运行 时 钟 频 率 的 微小 差 
异 积累 之 后 导致 接收 端 缓冲 区 Overrun/Underrun。 比 
如 发 送 端 时 钟 频率 稍 高 于 接收 端 ， 那 么 接收 端 对 数据 
包 的 消耗 速度 赶不上 接收 速度 ， 则 导致 缓冲 区 溢出 ， 
如 果 在 链 路 上 定时 插入 COM-SKP-SKP-SKP 字 符 组 
合 ， 其 被 送 入 缓冲 区 占 位 ， 一 旦 由 于 接收 端 时 钟 频 率 
差异 的 积累 导致 缓冲 区 接近 满 了 ， 接 收 端 可 以 直接 将 
这 些 占 位 字符 从 缓冲 区 中 删 掉 ， 这 样 就 腾 出 了 空间 继 
续 接收 新 数据 包 。 这 个 思路 就 像 你 现在 硬盘 上 创建 一 
些 垃圾 大 文件 占 位 ， 以 防 一 些 零散 程序 后 台 默 默 把 空 
间 消 耗 光 你 才 知道 ， 这 样 当 硬盘 已 满 时 ， 你 可 以 删除 
这 些 占 位 空 泡 释放 一 些 空间 出 来 继续 使 用 ， 而 不 是 坐 
等 系统 崩溃 。SKP 的 意思 你 现在 应 该 可 以 理解 了 ， 就 
是 Skip 的 意思 。 而 COM 字 符 的 意思 是 Comma， 也 就 
是 逗号 的 意思 。 接 收 方 的 电路 需要 识别 COM 和 SKP 字 
符 ， 这 样 才能 从 接收 缓冲 区 中 删 掉 它们 释放 空间 。 

除了 COM-SKP-SKP-SKP 有 续集 外 ， 还 存在 用 于 
让 接收 方 进 入 节 电 模 式 的 COM-IDL-IDL-IDL 有 续集 
(IDL 表 示 Idle) ， 以 及 用 于 通知 接收 方 从 节 电 模式 恢 
复 到 正常 模式 的 COM-FTS-FTS-FTS 有 续集 (FTS 字 符 
中 的 0 和 1 组 合 会 被 接收 方 用 来 重新 提取 发 送 方 的 时 钟 
频率 并 与 本 地 时 钟 进行 同步 ， 然 后 重新 恢复 到 正常 接 
收 模式 ，FTS 表 示 Fast Training Sequence) 。 有 续集 在 
链 路 上 传送 时 ， 并 不 像 DLLP/TLP 那 样 被 按照 字 横 向 
打 散 在 多 个 通道 上 传输 ， 而 是 必须 每 个 通道 上 都 同时 
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Time 


传递 一 次 同一 份 有 续集 。 这 便 产 生 了 如 图 7-98 中 的 8 
路 COM-SKP-SKP-SKP 有 续集 分 别 在 8 个 通道 上 传递 一 
次 的 景象 。 

如 图 7-100 左 侧 所 示 ， 如 果 底 层 端口 只 采用 一 个 
PCIE 通 道 来 传送 数据 ， 那 么 数据 包 的 字 节 就 是 一 个 接 
一 个 在 这 条 单一 通道 上 传递 的 。 如 果 采 用 4 个 通道 组 
成 一 个 端口 ， 那 么 就 如 图 7-100 右 侧 所 示 。 

图 7-98 中 另外 的 一 个 字符 是 Idle 字 符 〈 二 进 制 
00000000) ， 注 意 ， 其 区 别 于 IDL 字 符 。IDL 字 符 与 
COM 字 符 组 成 COM-IDL-IDL-IDL 有 续集 ， 被 接收 方 
收 到 之 后 ， 接 收 方 会 直接 进入 节 电 模式 ， 也 就 是 链 路 
上 不 再 有 数据 包 传递 。 而 Idle 字 符 的 作用 是 ， 当 链 路 
两 端 都 在 正常 收发 模式 时 ， 发 送 方 缓冲 区 已 空 ， 没 有 
任何 上 层 数据 包 要 发 送 的 情况 下 ， 为 了 维持 链 路 的 连 
通 性 ， 发 送 方 必 须 自行 找 东西 发 送 给 接收 方 ， 接 收 方 
收 到 之 后 丢弃 它 。 难 道 这 不 是 多 此 一 举 么 ? 发 送 方 不 
发 送 任何 数据 不 可 以 么 ? 我 们 在 第 1 章 中 提 到 过 ， 电 
路 是 可 以 处 于 高 阻 态 的 。 难 道 发 送 方 或 者 接收 方 不 可 
以 将 电路 置 于 高 阻 态 么 ? 不 可 以 。 我 们 在 第 6 章 介绍 
QPI 时 介绍 过 同步 /异步 通信 的 机 制 ， 同 步 通信 要 求 双 
方 的 时 钟 频率 是 严格 同步 的 (纵然 可 以 允许 极 小 的 频 
率 差 异 ， 见 上 文 对 SKP 的 介绍 ) ，PCIE 接 收 端 需要 从 
发 送 端 发 送 的 数据 中 提取 时 钟 频率 和 相位 用 于 同步 到 
接收 端 前 端的 电路 频率 和 相位 。 如 果 链 路 上 长 时 间 没 
有 数据 ， 或 者 始终 是 0 或 者 1， 那 么 接收 方 就 无 法 提取 
出 发 送 端 使 用 的 频率 ， 最 后 导致 时 钟 同步 丢失 ， 链 路 
故障 。 这 个 故障 与 上 面 所 说 的 通过 COM-IDL-IDL-IDL 
有 续集 将 链 路 有 目的 断 开 是 有 区 别 的 ， 后 者 的 场景 是 
比如 设备 长 时 间 处 于 节 电 状态 ， 就 没 必要 接 通 链 路 ， 
而 前 者 是 双方 都 在 正常 收发 ， 只 不 过 由 于 短 时 间 内 没 
有 东西 要 发 而 已 。Idle 字 符 的 作用 就 是 填充 这 些 时 间 
空 泡 的 ， 接 收 端 接收 它们 之 后 仅仅 用 它们 来 同步 本 地 
的 时 钟 ， 然 后 就 将 它们 丢掉 了 。COM-IDL-IDL-IDL 被 
称 为 电气 层 空 闪 (Electronic Idle) ， 而 Idle 字 符 被 称 


47-100 单 通道 和 四 通道 端口 下 的 传输 场景 


为 逻辑 空闲 (Logical Idle) 。 

这 里 会 产生 一 个 疑问 : Idle 字 符 的 编码 为 二 进 制 
00000000， 在 导线 上 传输 全 0， 那 如 何 提取 时 钟 频 率 
R? 实际 上 ， 上 述 所 有 的 这 些 字符 、 数 据 帧 等 ， 被 载 
入 导线 传输 之 前 还 需要 经 过 很 多 关卡 ， 其 中 一 个 就 是 
N/Mb 编 码 模 块 。 该 模块 的 作用 前 文 7.3.2 节 中 已 经 介 
绍 过 了 ， 它 会 在 数据 流 中 强行 插入 匈 余 位 ， 让 其 保持 
足够 的 信号 跃 变 。 

有 了 上 述 基本 知识 框架 ， 我 们 再 来 看 一 下 图 
7-101。 该 图 展示 了 PCIE 整 个 物理 层 的 框架 全 貌 ， 最 
顶层 有 4 个 数据 源 连接 在 一 个 Mux 上 。 这 4 个 数据 源 
分 别 是 : 上层 的 数据 包 缓 冲 区 Tx Buffer (Transfering 
Buffer) 、 存 储 着 各 种 可 单独 发 送 的 控制 字符 的 固定 
值 寄存 器 (Control/Token Character) 、 存 储 着 Idle 字 
符 的 固定 值 寄存 器 (Logical Idle) 、 存 储 着 各 种 有 续 
Ж (多 个 控制 字符 组 成 ， 每 个 字符 不 能 单独 发 送 ) 的 
固定 值 寄存 器 。 

当 Tx Buffer 为 空 时 ， 物 理 层 的 发 送 控制 电路 会 控 
制 Mux 将 Idle 字 符 输 出 到 下 游 发 送 ， 该 Mux 的 切换 频 
率 应 为 每 个 通道 的 发 送 速率 乘 上 通道 的 数量 。 该 Mux 
就 像 左轮 枪 上 的 左轮 ， 扳 机 就 是 该 Mux 的 控制 信和 号， 
后 端的 多 个 通道 就 像 枪 管 ， 系 统 必须 保持 所 有 枪 管 恒 
定 地 发 射出 子弹 。 这 些 子 弹 可 以 是 上 述 任何 字符 ， 比 
如 空闲 时 的 Idle，STP/SDP 帧 头 、PAD 填 充 、 有 续集 
等 ， 当 然 ， 必 须 按照 一 定 的 规则 比如 有 续集 必须 同 
时 在 多 个 通道 上 串 行 发 出 而 不 能 被 打 散 》 排 布 。 

然而 ， 左 轮 只 是 从 4 个 数据 源 中 以 字 节 为 粒度 将 
数据 选 出 ， 前 面 排 着 一 排 枪 管 ， 选 出 的 数据 由 谁 负 
责 发 射 到 对 应 的 枪 管 中 呢 ? 当然 还 得 有 个 DEMUX 
来 做 这 件 事 了 ， 这 个 套路 我 们 在 之 前 章节 中 的 一 些 
电路 中 ， 比 如 Crossbar 交 换 机 中 ， 已 经 用 得 非常 熟练 
了 ， 这 里 就 不 再 袭 述 了 。 该 DEMUX 便 是 图 中 的 Byte 
Striping 控 制 单元 。 每 从 上 层 收 到 一 个 字 节 ， 该 单元 就 
切换 到 下 一 个 枪 管 将 该 字 节 发 射出 去 ， 其 切换 速度 也 
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再 来 看 每 个 枪 管 。 上 层 的 字 节 不 断 塞 入 枪 管 ， 进 
入 枪 管 后 第 一 关 便 是 经 过 加 扰 模块 对 数据 进行 加 扰 处 
理 ， 加 扰 的 目的 和 原理 详 见 7.3.2 节 。 当 然 ，PCIE 的 加 
扰 机 制 与 前 文中 介绍 的 有 些许 区 别 ， 那 就 是 PCIE 通 
信 双 方 并 不 需要 传递 种 子 值 ， 而 是 按照 既定 的 种 子 值 
和 变化 规则 各 自 加 解 扰 ， 然 后 在 一 定时 间 重 置 种 子 值 
重新 开始 。 而 PCIE 1.0/2.0 规 范 和 PCIE 3.0 规 范 中 的 加 
扰 算 法 又 有 些 不 同 ， 所 以 为 了 前 向 兼容 ， 该 模块 其 实 
同时 拥有 针对 1.0/2.0 版 本 和 3.0 版 本 的 两 套 加 扰 模块 ， 
并 根据 当前 所 采用 的 链 路 模式 通过 Mux 来 控制 数据 通 
路 。 对 于 1.0/2.0 版 本 规范 ， 数 据 加 扰 之 后 会 进入 8/10 
b 编 码 模块 编码 ， 然 后 发 送 到 Serdes 串 并 转换 模块 ， 
最 终 经 过 一 些 线路 编码 模块 以 及 均衡 器 、 信 号 缓冲 器 
等 模块 ， 最 终 的 波形 发 送 到 线路 上 。 这 些 物 理 层 器 件 
要 么 在 第 1 章 ， 要 么 在 本 章 前 部 ， 都 介绍 过 ， 如 果 印 
象 生疏 了 建议 温 故 知 新 。 对 于 3.0 版 本 的 规范 ， 其 采 
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时 这 个 数据 包 就 无 法 被 接收 完整 ， 所 以 需要 用 特殊 
电路 模块 对 信号 进行 延迟 等 待 ， 这 个 过 程 就 叫 作 De- 
Skew。PCIE 物 理 层 其 实 还 有 很 多 细节 ，PCIE 1.0/2.0 
与 3.0 标 准 之 间 又 有 很 大 的 不 同 。 由 于 篇 幅 所 限 ， 请 大 
家 自行 了 解 。 


至 此 ， 我 们 一 直 都 是 假设 整个 PCIE 网 络 中 只 有 一 
个 Host 端 ， 其 他 的 就 是 一 堆 PCIE 设 备 。Host 端 通过 存 
储 器 地 址 访问 PCIE 设 备 的 寄存 器 ，PCIE 设 备 也 通过 
存储 器 地 址 访问 Host 端 的 主 存 ， 从 而 实现 将 IO 命令 和 
数据 发 送 给 PCIE 设 备 。 那 么 ， 有 没有 想 过 ， 在 同一 个 
PCIE 网 络 域内 ， 是 否 可 以 接 入 多 个 Host 端 ， 然 后 允许 
任何 一 个 Host 端 直接 访问 其 他 任何 一 个 Host 的 主 存 ? 

PCIE 网 络 本 身 就 是 访 存 网 络 ， 做 到 这 个 有 什么 
难度 么 ? 如 果 说 ， 多 个 Host 端 本 身 是 一 个 多 CPU 的 单 
一 系统 ， 那 么 这 就 没 问 题 。 因 为 单一 系统 的 地 址 空间 


用 128/130 位 编码 ， 图 中 并 没有 画 出 这 部 分 ， 而 是 用 
Сепз Scrambler 涵 盖 了 加 扰 和 N/M 编码 模块 。 

PCIE 的 接收 方 做 上 述 步 又 的 逆 操 作 ， 其 中 还 有 
重要 的 一 步 叫 作 。 因 为 每 个 数据 包 是 被 打 散 
在 多 个 通道 上 传递 的 ， 每 个 通道 的 导线 长 度 并 不 能 
证 严格 相等 ， 如 果 信 号 频率 非常 高 ， 这 会 导致 一 个 通 
道 收 到 了 信和 号 而 另 一 个 通道 的 信号 却 还 没有 到 来 。 此 


只 有 一 个 ， 虽 然 CPU 有 多 个 ， 每 个 CPU 各 自 都 有 64 根 


地 址 线 ， 各 自 都 能 寻 址 单独 的 2“ 字 节 的 地 址 空间 ， 但 
是 系统 路 由 却 会 将 任何 一 个 CPU 发 出 的 相同 地 址 路 由 


到 唯一 的 物理 地 址 处 ， 运 行 在 这 个 单一 系统 里 的 软件 
会 负责 对 共享 资源 访问 时 的 锁 的 控制 ， 以 及 由 硬件 保 
障 的 缓存 一 致 性 。 这 就 是 所 谓 的 单一 地 址 空间 ， 或 者 
说 共享 地 址 空间 。 在 这 种 场景 下 ， 假 设 地 址 1000 位 于 


有 3 可 大 话 计算 机 一 一 计算 机 系统 底层 架构 原理 极限 剖析 


CPU1 所 连接 的 主 存 ， 而 地 址 2000 位 于 CPU2 所 连接 的 
主 存 ，CPU1 如 果 访 问 地 址 2000， 会 被 PCIE 网 络 自动 
路 由 到 CPU2 连 接 到 主 存 上 。 反 之 如 果 CPU2 访 问 地 址 
1000 则 被 路 由 到 CPU1 连 接 的 主 存 上 ，CPU1 访 问 地 址 
1000 的 话 则 直接 访问 到 自己 连接 的 主 存 上 。 

但 是 ， 如 果 这 些 CPU 各 自 独立 ， 那 它们 就 是 多 台 
独立 的 计算 机 了 ， 它 们 有 各 自 独 立 的 地 址 空间 。 相 
同 的 例子 下 ， 如 果 CPU1 访 问 地 址 2000， 其 会 落 在 自 
己 所 连接 的 主 存 中 ，CPU2 访 问 地 址 1000 也 会 落 在 自 
己 所 连接 的 主 存 中 。 要 想 做 到 依然 让 CPU1 访 问 地 址 
2000 的 时 候 被 路 由 到 CPU2 的 主 存 ， 那 就 需要 PCIE 网 
络 接管 CPU1 发 出 的 2000 地 址 的 请 求 ， 然 后 将 请 求 路 
1 到 CPU2 的 哪里 ? 也 是 2000 号 地 址 么 ? 不 一 定 。 既 
然 此 时 CPU1 和 CPU2 是 两 台 完 全 不 同 的 计算 机 ， 你 并 
不 能 预知 对 方 的 2000 号 地 址 是 否 已 经 被 其 他 程序 占用 
了 ， 你 并 不 能 霸道 地 认为 “我 访问 的 是 2000 号 地 址 ， 
对 应 的 访 存 请 求 到 了 对 方 也 必须 是 访问 对 方 的 2000 号 
地 址 ”。 这 好 像 陷入 一 个 困 局 了 。 

我 们 先 来 设 定 一 个 具体 的 应 用 场景 ， 然 后 一 步 步 
思考 和 设计 解决 方案 。 假 设 CPU1 系 统 想 与 CPU2 系 统 
进行 通信 ，CPU1 希 望 在 CPU2 的 主 存 中 开辟 一 块 I1MB 
大 小 的 存储 器 空间 ， 用 于 向 其 中 写 入 数据 供 CPU2 系 
统 使 用 ， 并 希望 采用 PCIE 网 络 来 互联 这 两 个 CPU， 
要 求 CPU1 可 以 通过 直接 访 存 的 方式 就 可 以 访问 到 这 
1MB 的 空间 。 需 求 提 完 了 ， 开 始 思考 解决 方案 。 首 
先 ， 当 CPU1 访 问 这 1MB 空 间 时 ， 对 应 的 访 存 请 求 
必须 被 转发 到 PCIE 网 络 ， 这 是 前 提 。 所 以 ， 必须 让 
PCIE 网 络 声明 这 1MB 的 地 址 ， 然 后 让 CPU1 系 统 分 配 
这 1MB 的 物理 地 址 给 PCIE 网 络 ， 这 样 ，CPU1 访 问 这 
1MB 地 址 空间 时 产生 的 访 存 请 求 就 可 以 被 路 由 到 PCIE 
网 络 中 。 至 于 PCIE 网 络 怎么 把 请 求 再 路 由 到 CPU2 主 
存 ， 下 面 再 思考 。 我 们 先 看 怎么 让 CPU1 分 配 这 1MB 
物理 空间 。 要 让 CPU 分 配 物理 地 址 空间 ， 必 须要 在 
了 PCIE 网 络 中 某 个 设备 上 声明 这 段 空间 。 那 么 ， 我 们 可 
以 实现 一 个 PCIE 设 备 ， 该 设备 在 其 BAR 中 声明 1MB 的 
地 址 空间 ， 当 CPU1 系 统 枚 举 出 该 设备 之 后 ， 便 将 这 
1MB 空 间 映 射 到 CPU1 物 理 地 址 空间 中 ， 并 将 物理 地 
址 指针 记录 到 CPU1 系 统 的 设备 信息 描述 表 中 保存 。 
之 后 ，CPU1 系 统 的 程序 就 可 以 直接 访问 该 物理 地 址 
空间 ， 对 应 的 请 求 便 被 路 由 给 该 设备 。 

再 来 看 该 设备 收 到 针对 这 1MB 空 间 的 访 存 请 求 之 
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后 ， 应 该 怎么 把 其 路 由 到 CPU2 的 主 存 中 。 首 先 ， 必 
须 先 在 CPU2 系 统 上 ， 向 CPU2 系 统 的 内 存 管 理 程序 申 
请 一 段 IMB 的 物理 地 址 空间 出 来 ， 可 以 采用 一 些 函数 
比如 malloc0O) 函 数 〈 返 回 申请 到 的 虚拟 地 址 指针 ) ， 
以 及 get_physical add0) 函 数 ( 返 回 虚拟 地 址 对 应 的 物 
理 地 址 指针 ) 来 获取 申请 到 的 物理 基地 址 指针 。 然 
后 ， 需 要 将 该 物理 基地 址 指针 通告 给 该 设备 。 这 样 ， 
该 设备 同时 知道 了 : 该 IMB 地 址 段 在 CPU1 地 址 空间 
的 位 置 ， 以 及 其 被 映射 在 CPU2 地 址 空间 的 位 置 。 该 
设备 就 可 以 将 收 到 的 CPU1 的 访 存 请 求 ， 转 换 为 针对 
CPU2 主 存 中 的 这 1MB 的 物理 地 址 区 间 中 对 应 的 偏 移 
量 进行 访问 了 。 

也 就 是 说 ，CPU1 上 的 程序 认为 它 访问 的 是 这 个 
PCIE 设 备 内 部 的 存储 器 空间 。 而 实际 上 ， 该 设备 接收 
到 访 存 请 求 后 却 是 去 另外 一 个 PCIE 网 络 中 的 Host 端 主 
存 空间 来 访问 数据 ， 该 设备 相当 于 一 个 代理 。 

这 个 PCIE 设 备 极其 简单 ， 其 只 需要 声明 一 段 寄 存 
器 空间 ， 将 接收 到 的 CPU1 的 访 存 请 求 TLP 中 的 目标 
地 址 改 成 CPU2 中 对 应 地 址 ， 然 后 再 发 回 到 PCIE 网 络 
上 。 这 样 ，PCIE 网 络 根据 默认 路 由 ， 将 该 请 求 路 由 到 
CPU2 的 RC 上 从 而 访问 CPU2 的 主 存 。 且 慢 ， 这 里 有 些 
不 对 劲 。 该 PCIE 网 络 有 两 个 Host 端 连接 着 ， 此 时 无 法 
使 用 默认 路 由 ， 因 为 系统 无 法 分 清 某 个 主 存 地 址 到 底 
是 CPU1 的 还 是 CPU2 的 主 存 ， 这 产生 了 路 由 冲突 。 另 
外 ， 两 个 Host 系 统 中 的 设备 管理 程序 在 枚 举 PCIE 网 络 
时 ， 都 会 发 现 该 设备 ， 都 会 尝试 对 其 分 配 物理 地 址 ， 
这 会 导致 冲突 。 比 如 CPU1 系 统 分 配 了 CPU1 地 址 域 中 
的 1000 号 基地 址 给 它 ， 试 图 向 BAR 中 写 入 该 基地 址 指 
针 ， 而 CPU2 系 统 却 分 配 了 500 号 地 址 给 它 ， 也 向 BAR 
中 写 入 基地 址 指针 ， 这 样 便 产 生 了 配置 冲突 。 

所 以 ， 我们 似乎 只 能 这 么 办 : 准备 两 个 PCIE 网 
络 ， 比 如 最 小 配置 规格 ， 每 个 PCIE 网 络 只 包含 一 个 
PCIE Switch， 然 后 这 个 设备 的 两 端 各 接 到 这 两 个 PCIE 
网 络 中 。 咽 ， 这 不 就 是 个 桥接 器 了 人 么 ? 

图 7-102 左 侧 所 示 为 前 文中 介绍 过 的 场景 。 一 个 
Host 端 ， 级 联 了 两 个 PCIE Switch， 采 用 桥接 器 级 联 ， 
图 中 给 出 的 是 物理 桥 ， 实 际 上 都 采用 的 是 虚拟 桥 ， 但 
是 其 本 质 上 是 相同 的 。 图 中 左 侧 ， 也 就 是 前 文中 介绍 
的 桥接 器 ， 其 身 处 同一 个 地 址 空间 内 部 ， 它 并 不 会 做 
地 址 的 转换 ， 只 做 路 由 转发 ， 而 且 会 将 配置 请 求 (可 
能 会 将 其 从 Type01 转 换 为 Type00) 也 转发 到 后 级 网 络 
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图 7-102 


单个 PCIE 域 和 多 个 PCIE 域 


中 ， 所 以 称 为 透明 桥 (Transparent Bridge) 。 而 我 们 
现在 需要 一 个 可 以 做 地 址 转换 的 桥接 器 ， 同 时 不 会 把 
配置 请 求 转 给 另 一 边 网 络 的 桥接 器 (因为 我 们 不 想 让 
一 边 的 网 络 发 现 另 一 边 的 设备 ) ， 如 图 7-102 右 侧 所 
示 ， 这 种 桥接 器 就 被 称 为 非 透明 桥 (None Transparent 
Bridge, МТВ) 。 虽 然 图 中 左 侧 和 右 侧 的 场景 都 是 两 
个 PCIE Switch 级 联 ， 但 是 左 侧 它 俩 身 处 同一 个 地 址 空 
间 ， 或 者 说 同一 个 PCIE 域 ， 而 右 侧 则 是 位 于 两 个 不 同 
的 PCIE 域 。 

再 思考 一 下 ， 既 然 我 们 不 想 让 配置 请 求 越过 这 
个 桥 泄 露 到 后 面 的 网 络 ， 那 么 这 个 看 上 去 像 个 桥 的 
东西 ， 就 必须 不 能 被 Host 端 真 的 识别 成 一 个 桥 ， 否 
则 Host 端 会 尝试 扫描 这 个 桥 后 面 的 东西 。 为 了 防止 
Host 端 总 是 帖 记 着 桥 后 面 有 喻 ，NTB 必 须 表现 成 是 一 
个 最 终 的 IO 设备 ， 也 就 是 所 谓 的 端点 〈End Point, 
EP) ， 而 不 能 是 桥 ， 之 所 以 称 之 为 桥 只 是 其 表面 上 起 
到 了 桥接 作用 。 


EP 的 概念 前 文中 没有 介绍 过 ， 前 文 都 是 用 “I/ 
OO 控制 器 ”或 者 “PCIE 设 备 ”这 种 词 向 大 家 介绍 
的 。PCIE 网 络 共存 在 RC、PCIE Switch、 虚 拟 桥 和 
EP 这 四 种 元 素 。 


NTB 会 在 其 配置 空间 的 一 个 或 者 多 个 BAR 中 声明 
对 应 的 存储 器 容量 。 还 是 拿 上 面 的 例子 ， 比 如 1MB 的 
容量 ， 虽 然 NTB 本 身 可 能 根本 就 没有 这 些 存 储 器 ， 其 
目的 就 是 为 了 从 Host 端 吸收 针对 所 声明 存储 器 地 址 空 
间 的 访问 ， 然 后 再 做 地 址 翻译 ， 将 这 1MB 区 段 翻译 成 
对 方 的 PCIE 网 络 内 的 IMB 区 段 地 址 ， 然 后 向 对 方 网 络 
发 出 翻译 后 地 址 的 访 存 请 求 。 

NTB 另 外 一 个 特殊 的 地 方 在 于 ， 其 连接 着 两 个 〈 或 
者 多 个 ) 网 络 域 ， 那 么 其 需要 在 每 个 连接 的 网 络 域内 都 
表现 为 一 个 EP， 那 这 就 意味 着 其 需要 有 多 份 配置 空间 ， 
以 供 每 个 网 络 域内 的 Host 端 设备 管理 程序 来 配置 。 

下 面 我 们 思考 一 下 : 是 谁 告诉 NTB 需 要 声明 多 少 
存储 器 容量 的 ? 以 及 要 翻译 成 的 目标 地 址 又 是 谁 告诉 它 
的 ， 这 个 地 址 被 保存 在 它 的 哪里 ? 这 两 个 问题 已 经 算是 
实际 工程 设计 问题 了 ， 往 往 会 有 很 多 种 答案 组 合 。 

对 于 上 述 第 一 个 问题 ， 目 前 实际 产品 中 常用 的 办 
法 是 在 PCIE Switch 的 ROM 中 保存 对 应 的 配置 信息 ， 
静态 指定 要 声明 的 存储 器 容量 等 。PCIE Switch 加 电 启 
动 之 后 ， 由 内 部 的 嵌入 式 CPU 运 行 固件 ， 从 ROM 中 读 
出 对 应 的 信息 然后 写 入 到 配置 空间 相关 寄存 器 中 ， 供 
Host 端 程序 查询 和 配置 。 这 种 方式 很 不 灵活 ， 更 灵活 
的 方式 是 利用 BMC ( 见 图 6-92) ， 在 计算 机 加 电 但 是 
还 没有 启动 主 CPU 之 前 ， 用 户 通过 BMC 控 制 器 上 的 诸 
如 以 太 网 、i2c、UART 串 口 等 各 种 接口 方式 ， 向 PCIE 
Switch 发 送 对 应 的 配置 信息 ，PCIE Switch 内 部 的 嵌入 
式 CPU 收 到 这 些 信息 之 后 ， 将 其 更 新 到 配置 空间 中 。 
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这 样 就 非常 灵活 了 ， 可 以 直接 在 BMC 上 通过 Web 界 面 
或 者 命令 行 直接 做 初始 化 配置 ， 然 后 再 启动 计算 机 。 

解决 上 述 第 二 个 问题 ， 有 点 麻烦 。 因 为 要 翻译 
到 的 目标 地 址 ， 在 计算 机 启动 之 前 是 不 知道 的 ， 因 为 
这 块 地 址 需要 是 对 方 网 络 的 某 个 地 址 区 间 ， 这 段 区 间 
必须 是 被 对 方 网 络 中 的 Host 端 分 配 好 的 ， 当 对 方 网 络 
Host 启 动 之 后 ， 对 方 Host 才 会 做 枚 举 和 配置 。 如 果 本 
方 要 访问 对 方 网 络 里 的 某 个 EP， 那 就 需要 知道 这 个 
EP 在 对 方 网 络 被 分 配 的 物理 地 址 。 如 果 本 方 要 访问 对 
方 网 络 的 Host 端 的 主 存 ， 那 么 就 需要 对 方 网 络 Host 端 
上 的 某 程序 先 申请 一 块 主 存 ， 获 取 到 其 物理 基地 址 指 
针 ， 然 后 将 这 个 指针 用 某 种 方式 让 本 方 知晓 ， 然 后 本 
方 将 这 个 指针 告诉 NTB， 以 便 地 址 翻译 时 使 用 。 并 且 
对 方 网 络 的 Host 程 序 还 必须 知道 本 方 NTB 声 明了 多 少 
容量 ， 所 以 需要 本 方程 序 采 用 某 种 方式 将 这 个 容量 告 
诉 对 方 ， 对 方 再 去 申请 内 存 。 所 以 ， 不 管 是 要 访问 对 
方 某 个 EP 还 是 主 存 ， 似 乎 都 需要 Host 端 的 程序 来 获取 
对 应 的 物理 地 址 指针 分 别 通过 读 取 EP 的 BAR、 申 请 
主 存 空间 ) 然后 通告 给 本 方 。 上 文中 说 过 ，NTB 必 须 是 
一 个 EP 设 备 ， 那 么 Host 端 自然 需要 加 载 该 设备 的 驱动 程 
序 ， 所 以 ，NTB 的 驱动 程序 自然 应 该 担负 起 上 述 责任 。 

另外 ，TLP 中 是 包含 有 ID 的 ， 其 也 需要 被 翻译 。 
因为 这 两 个 网 络 是 分 别 被 各 自 独立 的 Host 端 枚 举 并 分 
配 ID 的 ， 会 存在 相同 的 ID ， 不 翻译 就 会 错乱 。 下 面 我 
们 就 来 看 一 个 真实 的 NTB 设 计 是 如 何 实现 上 述 这 些 机 
制 的 ， 如 图 7-103 所 示 。 

程序 员 先 确定 本 方 要 访问 对 方 主 存 的 多 少 段 存储 
器 (最 多 5 段 ， 因 为 NTB 最 多 有 6 个 BAR， 其 中 BAR#0 
指向 的 空间 用 来 放 配 置 参 数 和 各 种 映射 表 ， 因 为 PCIE 
标准 规范 中 规定 的 配置 空间 的 大 小 可 能 不 够 承载 这 些 
映射 表 ， 所 以 实际 中 的 设备 一 般 将 这 些 表 放 在 BAR#0 
指向 的 内 部 存储 器 中 ， 不 过 也 有 一 部 分 内 容 直 接 放 在 
扩展 配置 空间 中 ， 因 产品 设计 而 异 ) ， 以 及 每 段 的 容 
Ш. 然后， 通过 对 应 手段 预先 将 每 个 BAR 要 声明 的 存 
储 器 容量 值 写 入 PCIE Switch 的 ROM 的 配置 文件 中 ， 
加 电 后 由 Switch 内 部 的 嵌入 式 CPU 负 责 将 其 读 出 并 载 
入 到 对 应 BAR 中 。 

两 边 Host 端 枚 举 各 自 的 网 络 并 为 NTB 的 BAR 中 声 
明 的 容量 分 配 左边 网 络 的 物理 地 址 ， 再 将 分 配 好 的 指 
针 写 入 对 应 的 BAR。 配 置 请 求 不 会 穿 透 到 右边 ， 因 为 
NTB 在 两 边 网 络 中 各 体现 为 一 个 EP。 我 们 假设 右边 的 
网 络 并 不 主动 访问 左边 的 网 络 。 

两 边 Host 端 的 NTB 驱 动 程序 被 设备 管理 程序 加 载 
并 运行 ， 驱 动 程序 开始 对 NTB 的 具体 运作 参数 进行 
配置 。 它 首先 从 设备 信息 描述 表 中 获取 所 有 的 BAR 
空间 对 应 的 容量 值 ， 然 后 发 送 消息 给 右 侧 网 络 Host 端 
的 NTB 驱 动 程序 ， 让 它 在 右 侧 申请 对 应 的 5 段 主 存 空 
间 ， 并 将 指针 传 回来 。 那 么 这 两 个 NTB 是 具体 如 何 利 
用 PCIE 网 络 传递 这 些 信 息 的 呢 ? 具体 可 以 这 样 做 : 每 
个 NTB EP 均 在 自己 的 BAR#0 空 间 里 开辟 一 小 段 地 址 
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空间 用 于 存放 消息 ， 并 与 其 他 NTB EP 的 存放 消息 的 
空间 预先 配置 好 映射 关系 ， 比 如 左 侧 NTB 驱 动向 左 侧 
NTB EP 的 BAR#0 中 的 Message Register#0 写 入 一 个 消 
息 〈 该 消息 比如 为 请 求 对 方 申请 物理 地 址 ， 至 于 该 请 
求 如 何 编码 和 表示 ， 因 产品 而 异 ) ， 然 后 NTB 根 据 映 
射 关 系 ， 将 该 消息 写 入 到 右 侧 NTB EP 的 比如 Message 
Register#1 中 。 右 侧 的 NTB 驱 动 程序 如 何 知道 左 侧 已 
经 将 消息 传 过 来 了 呢 ? 右 侧 的 NTB 驱 动 可 以 定时 轮 
询 这 个 寄存 器 以 获取 消息 并 执行 ， 或 者 左 侧 的 NTB 
驱动 将 消息 写 入 之 后 ， 主 动 通知 右 侧 的 NTB EP“ 产 
生 个 中 断 吧 ”， 从 而 让 右 侧 的 NTB EP 发 出 一 个 中 断 
请 求 给 右 侧 网 络 的 RC〈 如 何 利 用 PCIE 网 络 传递 中 断 
请 求 详 见 下 文 )， 触 发 NTB 驱 动 中 断 服务 程序 的 运 
行 ， 以 读 取 该 寄存 器 获取 消息 。 如 何 让 对 方 的 NTB 
EP 产生 中 断 信号 昵 ?实际 中 ， 可 以 在 本 侧 NTB EP 的 
BAR#0 空 间 内 部 设置 一 个 特殊 的 寄存 器 (Doorbell 
Register) ， 向 该 寄存 器 内 写 入 对 应 的 值 ，NTB 桥 通 
过 判断 这 个 值 ， 触 发 对 方 网 络 的 NTB EP 发 出 中 断 请 
求 。 后 文中 你 会 看 到 不 止 两 个 独立 网 络 相互 通信 的 场 
景 ，Doorbell Register 中 的 值 用 于 判断 该 中 断 请 求 应 当 
向 哪个 网 络 中 的 NTB EP 发 送 。 右 侧 向 左 侧 发 送 消息 
的 流程 类 似 ， 只 不 过 是 将 申请 好 的 物理 地 址 指针 作为 
消息 内 容 传送 到 右 侧 的 Message Register 中 。 

右边 NTB 驱 动 程序 在 右边 申请 的 主 存 物 理 地 址 不 
一 定 是 连续 的 ， 比 如 ， 针 对 左边 提出 的 申请 800KB 的 
要 求 ， 假 设 右 边 申请 了 8 个 不 连续 的 100KB 区 段 ， 那 
么 右边 会 将 这 8 个 指针 告诉 左边 。 左 边 的 NTB 驱 动 程 
序 将 收 到 的 指针 ， 写 入 到 BAR#0 指 向 的 位 于 NTB 内 部 
的 存储 器 中 ， 这 些 存储 器 专门 用 来 存放 NTB 的 各 种 配 
置 。 其 中 包含 参数 寄存 器 以 及 地 址 翻译 表 ， 这 些 指针 
会 被 分 别 写 入 到 每 个 BAR 对 应 的 条 目 中 。 对 于 物理 地 
址 不 连续 的 ， 则 采用 二 级 查找 表 方 式 来 追踪 这 些 不 连 
续 的 区 块 指针 。 

左边 NTB 驱 动 将 指针 写 入 对 应 的 翻译 表 之 后 ， 向 
NTB 各 个 BAR 的 参数 寄存 器 中 写 入 对 应 的 使 能 位 ， 这 
就 宣告 该 NTB 可 以 针对 该 BAR 正 式 做 地 址 翻译 了 ， 也 
意味 着 Host 端 (或 者 本 方 其 他 EP) 就 可 以 访问 NTB 
上 的 BAR 对 应 的 地 址 区 间 了 。Host 端 程序 的 访 存 请 求 
如 果 落 入 NTB 上 BAR 声 明 的 地 址 空间 内 ， 那 么 本 方 
Switch 会 将 该 请 求 路 由 到 NTB。NTB 收 到 该 请 求 ， 提 
取 其 访 存 地 址 并 同时 与 BAR1 一 5 中 保存 的 基地 址 指针 
相 匹配 CNTB 自 己 知道 该 BAR 容 量 / 长 度 是 多 少 ) 看 
看 具体 是 落 入 了 哪个 区 间 ， 从 而 查找 地 址 翻译 表 找 出 
对 应 BAR 的 翻译 目标 基地 址 。NTB 如 果 发 现 需要 查 二 
级 表 则 继续 查询 二 级 表 ， 找 到 本 地 址 需要 翻译 成 的 目 
标 地 址 ， 然 后 替换 TLP 中 的 目标 地 址 ， 将 该 修改 过 的 
TLP 发 送 到 右 侧 网 络 进行 路 由 ， 最 终 被 路 由 到 右 侧 网 
络 的 主 存 处 访问 。 

这 样 好 像 就 可 以 了 ? 且慢 。 我 们 忘 了 翻译 ID。 由 
于 每 个 TLP 都 携带 有 ID， 当 然 ，Switch 针 对 访 存 请 求 
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TLP 只 会 根据 其 存储 器 地 址 进行 路 由 ， 但 是 存储 器 读 
请 求 的 返回 内 容 需 要 根据 ID 来 路 由 。 我 们 追踪 一 下 ， 
当 左 侧 网 络 将 翻译 好 目标 存储 器 地 址 的 TLP 发 送 到 右 
侧 网 络 之 前 ， 该 TLP 的 Requester ID 应 该 是 什么 ? 看 
上 去 ， 它 应 该 是 右 侧 NTB EP 的 ID 才 对 ， 因 为 右 侧 的 
网 络 并 不 知道 该 EP 左边 是 什么 ， 任 何 该 EP 发 过 来 的 
TLP， 其 源 ID 理应 为 其 自身 ID， 所 以 NTB 还 需要 将 该 
TLP 的 Requester ID 替换 为 右 侧 NTB EP 的 ID 。 如 果 不 
替换 ， 则 会 产生 错乱 ， 因 为 右 侧 网 络 中 很 有 可 能 存在 
某 个 与 左 侧 发 送 请 求 的 设备 相同 的 ID 。 既 然 如 此 ， 针 
对 该 请 求 的 返回 包 的 Requester ID 自然 也 是 右 侧 NTB 
EP， 这 样 Switch 就 会 根据 内 部 ID 一 端口 路 由 表 将 该 
Completion TLP 转 发 给 NTB 了 。 

NTB 收 到 该 Completion TLP， 面 临 着 两 个 问题 需 
要 解决 。 第 一 个 问题 是 ， 该 返回 包 的 Completer ID 是 
右 侧 网 络 中 的 某 个 ID， 其 不 能 被 透 传 到 左 侧 ， 因 为 左 
侧 也 可 能 存在 一 个 相同 的 ID， 所 以 Completer ID 需要 
被 替换 为 左 侧 NTB EP 的 ID， 让 左 侧 网 络 认为 该 返回 
包 就 是 它 自己 发 送 的 。 这 也 是 自然 的 ， 因 为 之 前 本 网 
络 的 Host 端 一 直 认 为 自己 是 在 向 NTB EP 发 送 请 求 ， 
那么 返回 包 的 ID 也 必须 是 该 EP 的 ， 否 则 就 错乱 了 。 第 
二 个 问题 是 ， 该 返回 包 的 Requester ID 目前 是 右 侧 网 络 
的 NTB EP 的 ID， 这 显然 也 需要 被 替换 ， 但 是 它 替 换 
为 谁 ? 当然 是 谁 当初 发 送 的 请 求 就 替换 为 谁 的 ID 啊 。 
那么 左 侧 NTB 又 怎么 知道 某 个 返回 包 是 针对 当初 哪个 
请 求 的 呢 ? NTB 甚 至 都 不 知道 之 前 发 送 过 什么 请 求 ， 
它 只 是 转发 请 求 ， 而 并 不 记录 请 求 的 完成 状态 。 有 人 
问 了， 返回 包 当 然 要 发 送 给 左 侧 的 Host 端 口 啊 ， 因 为 
之 前 是 它 发 出 的 请 求 啊 ! 无 此 一 说 ! 左 侧 网 络 任何 角 
色 ， 包 括 Host 端 RC、 任 何 一 个 EP， 都 可 以 向 右 侧 网 
络 发 送 请 求 ， 也 就 是 说 ，PCIE 设 备 (EP) 是 可 以 主 
动 发 起 请 求 的 ， 这 是 当然 的 。 还 记得 前 文 介绍 过 的 VO 
基本 流程 吗 ? EP 有 数据 要 传送 的 时 候 ， 它 是 可 以 直接 
将 数据 DMA 到 Host 端 主 存 的 ， 那 它 也 一 样 可 以 将 数据 
发 送 给 本 方 的 NTB EP， 不 一 定 非得 发 送 给 Host 端 RC。 

那么 ， 为 了 区 分 哪个 返回 包 是 响应 哪个 端口 当初 
发 送 的 请 求 ， 难 道 需 要 在 NTB 上 记录 状态 吗 ? 这 样 做 
可 以 解决 问题 ， 但 是 成 本 太 高 。 更 好 的 办 法 是 ， 为 每 
个 本 方 的 发 送 请 求 者 ， 在 右 侧 网 络 中 虚拟 出 一 个 虚拟 
ID 来 ， 如 图 7-103 右 下 角 的 ID 翻译 表 所 示 。 左 侧 的 RC 
的 ID 为 BODOF0， 其 发 送 的 访问 本 侧 NTB ЕР BAR1~5 
空间 的 所 有 TLP 的 Requester ID 均 会 被 替换 为 BID8F0 
〈 本 例 中 右 侧 网 络 的 总 线 号 被 右 侧 Host 指 定 为 1， 这 
里 仅 为 举例 ， 右 侧 的 Bus ID 可 以 被 分 配 为 任意 值 ， 包 
括 0， 右 侧 并 不 知道 左 侧 网 络 的 存在 ) 。 这 个 ID 在 右 
侧 网 络 中 根本 是 不 存在 的 ， 因 为 右 侧 Host 端 枚 举 设备 
时 并 没有 分 配 这 个 D， 该 人 D 是 凭空 被 虚拟 出 来 的 ( 必 
须 保 证 这 些 ID 中 的 Bus ID 与 要 访问 的 目标 网 络 设备 的 
Виз ID 相 同 ， 而 且 DID/FID 在 该 Bus 内 无 人 占用 〉。 
同 理 ， 左 侧 的 EP 的 原 ID 为 BOD2F0， 其 发 送 的 访问 
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本 侧 NTB ЕР BAR1 一 5 空间 的 所 有 TLP 中 的 Requester 
ID 均 会 被 替换 为 B1D9F0。 同 时 ， 右 侧 的 Switch 会 在 
其 ID 一 端口 路 由 表 中 增加 两 个 条 目 : 凡是 目标 ID 为 
B1D8F0、B1D9F0 的 TLP 均 发 送 到 右 侧 NTB EP 所 在 的 
端口 。 这 一 步 很 重要 ， 这 样 右 侧 的 RC/EP 的 返回 包 就 
会 被 NTB 接 收 到 。 收 到 该 返回 包 之 后 ，NTB 查 询 ID 翻 
译 表 ， 找 出 该 虚拟 ID 对 应 的 左 侧 网 络 的 原始 ID， 从 而 
用 原始 ID 蔡 换 虚拟 ID， 进 入 左 侧 网 络 路 由 ， 最 终 被 路 
由 到 目的 地 。 
ID 翻译 表 也 需要 由 两 边 的 NTB 驱 动 程序 配合 ， 各 
自 将 本 方 的 所 有 ID 通告 给 对 方 ， 然 后 各 自生 成 对 方 ID 
在 本 方 的 虚拟 ID， 将 其 写 入 ID 翻译 表 。 右 侧 NTB EP 
的 配置 空间 与 左 侧 类 似 ， 如 果 右 侧 要 访问 左 侧 网 络 中 
的 存储 器 ， 步 骤 和 机 制 也 是 与 上 述 过程 类 似 的 。 
整个 过 程 相当 于 两 个 世界 ， 一 个 世界 的 人 在 另 
一 个 世界 拥有 虚拟 身份 ， 并 通过 世界 底层 的 路 由 来 欺 
骗 ， 从 而 将 内 容 返 回 到 另 一 个 世界 ， 返 回 之 前 ， 改 头 
换 面 脱 掉 伪 装 。 这 样 ， 每 个 世界 的 人 都 认为 自己 正在 
和 本 世界 的 角色 通信 。 而 NTB 则 是 连通 这 两 个 世界 的 
管道 ， 管 道里 充斥 着 各 种 翻译 表 和 帮 你 做 翻译 的 人 ， 
进 管道 ， 换 衣服 ， 出 管道 。 


NTB 的 本 质 其 实 是 个 地 址 翻译 器 ， 其 在 硬件 上 
对 应 着 一 堆 存 放 各 种 映射 表 的 存储 器 ， 以 及 配套 
的 查 表 电 路 模块 ， 以 及 用 于 替换 新 地 址 的 TLP 编 辑 
模块 。 


综 上 所 述 ，NTB 做 的 事情 就 是 负责 地 址 和 ID 的 翻 
译 。 而 为 此 就 把 NTB 做 成 一 个 单独 的 物理 PCIE 设 备 的 
话 ， 这 很 不 划算 ， 用 起 来 也 不 方便 。 最 好 的 办 法 是 ， 
将 NTB 直 接 集成 到 PCIE Switch 中 去 ， 也 就 是 说 ， 数 据 
包 走 出 Switch 之 前 就 换 好 衣服 ， 而 不 是 在 Switch 之 间 
的 管道 里 换 ， 这 样 做 的 效果 是 一 样 的 。 然 而 ， 如 果 每 


个 PCIE Switch 中 只 集成 一 个 NTB 地 址 翻译 模块 ， 多 
个 端口 同时 访问 对 方 网 络 内 的 存储 器 的 话 ， 该 NTB 就 
会 成 为 瓶颈 ， 因 为 地 址 翻译 是 需要 查 表 的 。 实 际 产品 
中 ， 设 计 者 会 给 每 个 PCIE 端 口 附属 一 个 NTB 地 址 翻译 
模块 ， 从 而 形成 分 布 式 翻译 。 

如 图 7-104 所 示 ， 直 接 在 PCIE Switch 内 部 的 每 个 
端口 旁边 实现 一 个 地 址 翻译 模块 ， 我 们 也 不 再 称 之 为 
NTB， 因 为 此 时 它 在 物理 上 已 经 不 是 桥 的 样子 了 ， 而 
直接 称 之 为 Address Translation ЕР ОБА, УН 
的 一 些 手 册 中 会 依然 沿用 NTB 这 个 词 ) 。 这 些 模 块 直 
接 被 挂 接 在 Switch 内 部 的 虚拟 PCI 总 线 上 ， 也 就 是 说 
Host 端 会 识别 到 这 些 EP。 当 然 ， 如 果 不 打 算 访问 对 方 
网 络 的 话 ， 可 以 通过 预先 对 Switch 做 配置 不 使 能 该 设 
备 ， 这 样 Host 端 就 识别 不 到 。 哪 个 端口 上 的 设备 需要 
跨 网 络 访问 ， 就 使 能 哪个 端口 附近 的 翻译 器 。 

不 管 是 RC 还 是 EP 尝试 访问 其 他 网 络 中 的 地 址 ， 
它们 都 需要 预先 将 这 些 远 端 地 址 纳入 到 请 求 方 跟前 的 
AT EP 的 BAR 空 间 里 (方法 上 文中 介绍 过 ) ， 这 样 就 
好 比 是 这 些 请 求 方 在 访问 本 侧 的 EP 一 样 。 我 们 再 来 按 
照 图 中 给 出 的 序号 梳理 一 遍 在 这 种 分 布 式 翻译 场景 下 
的 翻译 流程 。 

(1) 本 方 EP 发 出 存储 器 读 TLP 给 本 方 AT ЕР, ЈЕ 
者 查询 地 址 翻译 表 和 ID 翻 译 表 ， 将 TLP 中 的 访 存 地 址 
和 Requester ID 分 别 编辑 更 改 为 对 方 网 络 中 对 应 的 存储 
器 地 址 以 及 虚拟 ID 。 

(2) 本 方 AT EP 将 编辑 好 的 TLP 载 入 Crossbar 交 
换 矩 阵 的 发 送 缓冲 ， 并 明确 告诉 Crossbar: 该 TLP 的 目 
标 端口 为 与 对 方 Switch 的 级 联 端口 。 请 注意 ， 这 里 与 
上 文中 介绍 的 物理 NTB 场 景 下 的 运作 机 制 有 些 差别 ， 
上 文中 是 本 方 Switch 现 将 原始 未 经 翻译 的 TLP 路 由 到 
NTB EP 上 ， 后 者 再 对 地 址 进行 翻译 ， 所 以 本 方 Switch 
是 直接 根据 本 方 地 址 一 端口 路 由 表 中 的 条 目 路 由 的 。 
但 是 本 例 分 布 式 NTB 场 景 下 ， 一 个 TLP 需 要 经 过 两 次 
路 由 才能 被 发 送出 去 。 第 一 次 是 本 方 EP 将 原始 TLP 发 
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送 到 附属 的 AT EP， 但 是 这 个 路 由 过 程 实际 上 不 需要 
经 过 Crossbar， 因 为 每 个 端口 上 附属 的 AT EP 是 与 该 端 
口 事务 层 硬件 直接 相连 的 ， 只 要 启用 了 地 址 翻译 ， 那 
么 Switch 一 侧 端口 上 的 电路 会 先 对 地 址 做 个 筛选 ， 只 
要 是 落 入 AT EP BAR 空 间 的 数据 包 就 将 其 放 入 AT ЕР 
翻译 器 进行 翻译 ， 和 否则 直接 载 入 Crossbar 做 常规 查 表 
路 由 。 第 二 次 路 由 ， 则 是 AT EP 将 翻译 完 的 TLP 发 送 到 
对 方 网 络 时 必须 经 过 Crossbar 的 路 由 ， 但 是 此 时 TLP 中 
的 目标 地 址 已 经 是 另外 网 络 中 的 地 址 ， 所 以 当然 不 能 
用 作 本 方 网 络 的 路 由 表 查 找 ， 所 以 AT EP 会 直接 告诉 
Crossbar“ 别 查 表 了 ， 直 接 路 由 到 xx 端口 ”。 

G) 对 方 网 络 Switch 收 到 该 TLP， 由 于 是 存储 
器 读 请 求 ， 采 用 地 址 路 由 ， 所 以 查 表 将 其 路 由 到 目标 
EP。 目 标 EP 执 行 对 应 的 存储 器 读 ， 然 后 将 读 出 的 内 
容 封 装 成 Completion With Data TLP 包 。 

(4) 该 Completion TLP 包 的 Requester ID 将 是 右 
侧 网 络 的 虚拟 ID， 因 为 目标 EP 收 到 的 存储 器 读 请 求 
TLP 中 的 Requester ID 已 经 被 左 侧 发 送 方 AT EP 翻译 成 
虚拟 ID 了 ， 目 标 EP 会 提取 出 这 个 ID 作为 Completion 
TLP 的 Requester ID, Computer ID 则 是 右 侧 网 络 目 
标 EP 自 身 的 、 在 右 侧 网 络 中 的 ID。 该 TLP 会 被 右 
侧 Switch 用 Requester ID 来 路 由 到 目的 地 ， 但 是 其 
Requester ID 为 右 侧 网 络 中 的 虚拟 ID，Crossbar 和 矩阵 
上 根本 不 存在 这 个 设备 ， 该 怎么 路 由 呢 ? 道理 与 上 
面 介绍 的 是 一 样 的 。 第 一 次 路 由 会 被 强行 路 由 到 右 
侧目 标 EP 端 口上 附属 的 AT EP 模块 先进 行 地 址 翻译 ， 
АТ EP 通 过 查 表 找 出 对 应 该 虚拟 ID 的 左 侧 网 络 的 原始 
Requester ID, Completer ID 则 替换 为 该 左 侧 网 络 中 的 
原始 Requester ID 对 应 的 AT EP 的 ID 。 

(5) 目标 AT EP 将 翻译 好 的 TLP 载 入 Crossbar 并 
告诉 它 “ 直 接 路 由 到 与 左 侧 网 络 级 联 的 端口 ”。 

(6) 左 侧 网 络 收 到 该 数据 包 ， 由 于 其 是 
Completion TLP 类 型 ， 所 以 按照 Requester ID 路 由 ， 查 表 
得 知 需要 被 路 由 到 图 示 的 发 送 方 EP。 后 者 收 到 该 包 。 
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至 于 整个 过 程 ， 发 送 方 EP 一 直 被 蒙 在 鼓 里 ， 它 认为 所 
访问 的 是 本 端口 附属 的 AT EP 的 BAR 空 间 存储 器 。 

可 以 看 到 ， 在 分 布 式 地 址 翻译 场景 下 ， 发 送 方 的 
AT 和 接收 方 的 AT 分 别处 理 地 址 翻译 ， 相 当 于 把 之 前 的 
物理 NTB 上 分 别 位 于 两 个 网 络 中 的 EP 分 开 。 每 个 端口 上 
的 AT EP 可 以 与 对 方 网 络 中 的 任何 一 个 AT EP 形 成 一 个 虚 
拟 的 桥 管道 。 另外， 由 于 NTB 的 两 个 EP 被 分 开 ， 那 么 每 
个 AT EP 上 就 得 都 存放 相同 的 地 址 翻译 表 。 而 且 ID 翻 译 
表 中 还 需要 增加 一 列 记录 原始 网 络 中 AT EP 的 ID， 形 成 
类 似 这 样 的 记录 “原始 网 络 号 一 原始 Requester ID 号 一 该 
Requester ID 附属 的 AT EP 的 ID 一 该 Requester ID 对 应 的 目 
标 网 络 的 虚拟 ID 一 与 该 原始 网 络 级 联 的 端口 号 ”。 而 
在 前 文中 每 个 网 络 只 有 一 个 总 NTB 的 时 候 ， 每 个 网 络 
中 只 有 一 个 唯一 的 AT EP 的 ID， 它 无 须 记录 。 现 在 由 于 
一 个 网 络 中 每 个 端口 都 有 一 个 AT EP ID， 所 以 在 翻译 
Completion TLP 中 的 Computer ID 时 ， 必 须 用 Requester ID 
来 查 出 对 应 的 ATEPID， 从 而 做 替换 。 

再 进一步 ， 是 否 可 以 直接 在 一 个 Switch 上 分 隔 出 
多 个 独立 网 络 来 ? 这 样 就 可 以 用 一 片 Switch 芯片 来 接 
入 多 个 不 同 的 独立 Host， 并 且 实 现 相互 访 存 了 。 目 前 
主流 的 PCIE Switch 〈 比 如 PMC 公 司 的 PFX/PSX/PAX 
等 系列 PCIE Switch) 都 支持 片 内 虚拟 分 区 技术 ， 每 个 
分 区 相互 独立 ， 连 接 在 一 个 分 区 内 部 的 Host 端 只 能 枚 
举 出 处 于 同一 个 分 区 里 的 设备 ， 如 图 7-105 所 示 。 这 
是 如 何 做 到 的 呢 ? 其 实 ， 所 有 的 配置 读 写 请 求 ， 都 会 
被 Crossbar 擅 自 路 由 到 与 Switch 内 部 嵌入 式 CPU 所 连 
接 的 端口 上 了 ， 由 这 个 CPU 上 运行 的 固件 程序 来 决定 
给 Host 呈 现 出 一 副 什么 样 的 网 络 拓扑 ， 有 多 少 个 EP、 
多 少 个 桥 ， 等 等 ， 程 序 返 回 对 应 的 配置 响应 数据 包 来 
欺骗 Host 端 。 这 样 就 自然 可 以 做 到 逻辑 分 区 了 。 实 际 
中 ， 有 些 产 品 手册 又 称 逻 辑 分 区 为 Virtual Switch, 

可 以 看 到 ， 在 PCIE 网 络 中 ，PCIE Switch 起 到 了 
至 关 重 要 的 作用 。PCIE Switch 这 么 能 干 ， 那 么 它 的 内 
部 到 底 是 一 番 什 么 景象 呢 ? 
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图 7-105 支持 逻辑 分 区 的 PCIE Switch 
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7.4.1.9 PCIE Switch 内 部 


我 们 在 本 书 前 文中 提 到 过 ， 任 何 Switch 的 核心 ， 
其 实 都 是 Crossbar， 也 就 是 一 堆 MUX/DEMUX。 不 同 
领域 的 Switch， 比 如 以 太 网 的 、PCIE 的 、Infiniband 
的 、Fibre Channel 的 、SAS 的 ， 它 们 的 核心 可 以 说 都 
是 类 似 的 。 之 所 以 有 这 么 多 不 同 的 网 络 ， 是 因为 这 些 
网 络 定义 的 数据 帧 / 包 的 格式 不 一 样 、 地 址 不 一 样 ， 
物理 层 链 路 层 运行 模式 不 一 样 。 但 是 在 最 底层 ， 都 无 
非 是 一 串 比 特 流 从 一 个 端口 交换 到 另 一 个 端口 ，“ 交 
换 ” 的 方式 和 过 程 都 类 似 。 

那么 你 就 可 以 想象 出 来 ， 不 同 网 络 的 交换 机 ， 基 
本 上 就 可 以 认为 是 图 7-106 中 的 灰色 部 分 所 示 。 图 中 
的 C 表 示 Controller， 也 就 是 对 应 的 网 络 控制 器 。 如 果 
是 以 太 网 交换 机 ， 设 备 端 安装 一 块 以 太 网 卡 〈 或 者 说 
一 端 用 PCIE 控 制 器 与 CPU 相连 ， 另 一 端 出 以 太 网 端口 
的 IO 控制 器 ) ， 该 网 卡 用 以 太 网 端口 和 线 费 与 以 太 
网 交换 机 上 的 以 太 网 IO 控制 器 相连 ， 后 者 接收 到 以 
太 网 帧 后 ， 载 入 内 部 Crossbar 交 换 到 其 他 以 太 网 IO 控 
制 器 上 去 。 同 理 ， 如 果 是 PCIE 网 络 交换 器 ， 那 么 图 中 
的 C 就 表示 PCIE 控 制 器 了 。 
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图 7-106 PCIE Switch 示意 图 


图 7-107 所 示 为 一 款 典型 PCIE Switch 的 内 部 架构 
图 。“PCIE 控 制 器 ”是 个 大 模块 ， 按 照 图 中 所 示 ， 它 
是 包括 PHY 和 PCIE Stack 在 内 的 一 大 块 电路 。 其 中 的 
PHY 部 分 泛 指 的 是 物理 层 ， 也 就 是 图 7-101 中 所 示 的 
部 分 ， 而 Stack 部 分 泛 指 链 路 层 和 事务 层 相关 部 件 以 
及 一 些 附 加 的 部 件 ， 比 如 错误 处 理 逻 辑 、 各 种 运行 参 
数 寄存 器 、 运 行 时 性 能 数据 相关 的 记录 存储 器 等 ， 当 
然 ， 还 包括 特别 角色 AT EP 翻译 器 。 这 一 大 坨 的 东西 
很 复杂 ， 所 以 称 之 为 Stack〈 堆 ) 。 

一 个 Stack 下 面 的 PHY 层 可 以 挂 接 16 个 通道 ， 其 
中 这 16 个 通道 又 可 以 细 分 为 多 个 端口 ， 每 个 端口 至 少 


包含 2 个 通道 (至 少 几 个 通道 每 端口 ， 因 产品 而 异 ， 
目前 来 看 做 到 x2 已 经 是 极致 了 ) 。 这 样 ， 多 个 端口 其 
实 是 共享 PHY 和 Stack 中 的 资源 的 。 从 图 7-101 中 可 以 
看 到 ， 每 个 通道 独占 的 资源 是 加 解 扰 模 块 、N/Mb 编 
码 模块 以 及 线路 编码 器 和 均衡 器 等 模块 ， 每 通道 有 一 
套 。 但 是 物理 层 有 续集 存储 器 、 控 制 字符 固定 值 存 
储 器 、 上 层 TLP/DLLP 缓 冲 器 等 资源 ， 它 们 是 Stack 内 
所 有 通道 共享 的 。 假 设 该 Stack 下 的 16 个 通道 被 划分 
成 8 个 x2 的 端口 ， 那 么 PHY 中 的 TLP/DLLP 缓 冲 器 就 
会 被 切 分 为 8 份 ， 或 者 通过 增加 一 些 内 部 标识 来 区 分 
哪个 TLP/DLLP 是 发 向 哪个 端口 的 ， 具 体 情况 因 设计 
而 异 。 
提示 > 

这 也 是 为 什么 不 能 将 任意 多 个 通道 组 成 一 个 端 
口 的 原因 ， 目 前 主流 产品 最 大 支持 到 x16 жо. Ж 
是 因为 厂商 在 器 件 内 部 选择 以 16 个 通道 为 一 组 共享 
相关 的 资源 ， 这 是 设计 决定 的 。 目 前 看 来 X16 端口 
的 带宽 已 经 足以 满足 大 部 分 设备 的 需求 。 但 是 ， 在 
使 用 PCIE Switch 的 时 候 ， 其 与 CPU 之 间 的 上 行 端口 
会 成 为 瓶颈 ， 此 处 可 以 有 更 宽 的 端口 ， 比 如 x32。 
不 幸 的 是 ， 目 前 市 场 上 不 管 是 CPU 一 侧 还 是 PCIE 
Switch 一 侧 ， 它 们 最 大 仍然 只 支持 到 x16 端口 。 


对 于 链 路 层 中 的 ACK/NAK 处 理 模块 ， 由 于 其 
逻辑 比较 复杂 ， 虽 然 也 可 以 在 各 种 存储 器 中 使 用 标 
识 ， 但 是 这 样 依然 会 增加 逻辑 判断 电路 的 负担 ， 
为 需要 根据 标识 来 区 分 每 个 端口 的 数据 流 。 但 是 也 
可 以 人 为 分 隔 出 多 个 不 同 的 Replay Buffer， 这 样 就 可 
能 浪费 资源 ， 比 如 如 果 将 x16 通 道 分 割 为 2 个 x8 的 端 
口 ， 那 么 剩余 的 8 个 Replay Buffer 就 被 闲置 了 。 具 体 
情况 也 是 因 设 计 而 异 。 至 于 AT EP 翻译 器 中 的 映射 表 
等 存储 器 ， 其 更 是 在 一 大 片 存 储 器 中 通过 端口 标识 
来 共享 的 。 


在 网 络 领域 ， 大 家 经 常 说 “以 太 网 交换 机 运行 
在 链 路 层 ， 只 检查 到 链 路 层 MAC 地 址 就 可 以 知道 交 
换 目的 了 ， 根 本 不 需要 拆 开 以 太 网 上 层 的 包头 ”。 
对 于 以 太 网 来 说 ， 这 向 话 其 实 有 问题 。 我 们 前 文中 
说 过 ， 以 太 网 的 MAC 地 址 的 概念 其 实 已 经 算是 网 
络 层 的 概念 了 ， 你 当时 如 果 没 理解 ， 看 完了 PCIE 这 
个 网 络 的 全 貌 ， 也 至 少 应 该 理解 了 。PCIE 的 链 路 层 
才 真 的 是 链 路 层 。 什 么 叫 链 路 层 ? 链 路 层 就 是 “只 
管 一 条 线路 两 端 ”， 比 如 DLLP， 只 在 导线 两 端 存 
在 。 而 PCIE 是 没有 所 谓 链 路 层 地 址 的 ， 链 路 层 就 不 
需要 地 址 ， 因 为 我 发 出 去 的 数据 只 有 链 路 对 端 一 个 
人 接收 ， 锁 就 不 需要 什么 地 址 。 但 如 果 链 路 是 总 线 
拓扑 ， 数 据 发 出 去 可 能 有 多 个 人 接收 ， 那 么 自然 需 
要 地 址 ， 但 是 这 时 已 经 是 网 络 层 概 念 了 ， 总 线 就 是 
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个 网 络 。 所 以 ， 交 换 机 和 路 由 器 并 无 本 质 区 别 ， 你 
可 以 把 交换 机 叫 作 路 由 器 ， 但 是 由 于 IP 地 址 取代 了 
以 太 网 MAC 地 址 ， 导 致 网 络 中 出 现 两 层 路 由 器 ， 
也 就 是 以 太 网 交换 机 上 面 有 一 层 “IP 交 换 机 ”这 
种 根据 IP 转 发 数据 包 的 设备 ， 但 是 为 了 区 分 ， 其 就 
称 为 JP 路 由 器 了 。 我 们 再 来 看 PCIE 交 换 机 ， 其 需要 
根据 TLP 中 的 目标 地 址 来 路 由 ， 所 以 其 必须 能 够 识 
别 最 上 层 的 数据 包 类 型 。 如 果 数 据 包 是 DLLP 则 根 
本 不 需要 交换 ， 如 果 是 TLP， 还 得 看 是 哪 种 类 型 ; 
如 果 是 根据 ID 路 由 的 类 型 ( 比如 Completion ТІР. 
Configuration ТЕР), ， 那 么 就 去 查 ID ~ 端口 映射 
表 ， 如 果 是 存储 器 地 址 路 由 的 类 型 ， 那 就 得 去 地 
址 ~ 端口 路 由 表 。 所 以 ，PCIE Switch 在 层次 上 其 
实 与 卫 网 络 中 的 路 由 器 是 同等 角色 ，PCIE Switch 其 
实 工作 在 网 络 层 上 。 总 之 ， 不 要 再 被 这 些 概念 误导 
了 ， 理 清楚 网 络 交换 的 本 质 和 来 龙 去 脉 。 


现在 该 引入 另 一 个 关键 角色 了 一 一 Switch 中 的 顽 
入 式 CPU。 其 实 不 管 什么 交换 机 ， 其 内 部 往往 都 集 
成 有 一 个 小 CPU 核 心 来 对 Switch 做 管理 ， 以 及 实现 一 
些 高 级 功能 (比如 前 文中 多 次 提 到 的 如 何 欺骗 Host 端 
程序 ， 靠 的 就 是 这 个 CPU 上 运行 的 固件 程序 ) 。 该 
产品 采用 了 MIPS CPU (图 中 的 PCS 模 块 ，Processor 
Subsystem) ， 并 使 用 芯片 内 常用 的 高 速 总 线 AXI 总 
线 ， 连 接 了 一 批 外 围 1O 控 制 器 ， 比 如 UART 串 口 控制 
器 、 以 太 网 IO 控制 器 、IC 控 制 器 、GPIO 等 。 这 些 外 围 
的 IO 控制 器 是 用 来 让 该 CPU 与 外 界 沟通 的 ， 从 而 接收 
各 种 外 界 发 来 的 配置 参数 变更 、 状 态 获取 命令 。AXI 
总 线 上 还 连接 了 一 定 容 量 的 SRAM 存 储 器 ， 程 序 固件 
就 存在 这 个 存储 器 中 ， 核 心 直 接 访 存 SRAM 执 行 固件 
程序 。 

前 文中 我 们 提 到 过 ，PCIE Switch 中 的 每 端口 的 
P2P 虚 拟 桥 、AIT EP 其 实 都 是 由 嵌入 式 CPU 上 的 程序 
虚拟 出 来 的 。PCIE Switch 每 个 端口 收 到 的 TLP， 均 
会 被 端口 Stack 内 部 位 于 PCIE 事 务 层 硬件 上 层 的 判 
断 逻 辑 进 行 判断 ， 如 果 发 现 其 为 配置 读 写 类 型 的 请 
求 ， 则 一 律 将 该 TLP 通 过 Crossbar 发 送 给 嵌入 式 CPU 
上 的 程序 来 处 理 ， 由 后 者 决定 给 请 求 方 返回 什么 内 
容 。 也 正 是 通过 这 种 方法 ， 程 序 中 可 以 指定 比如 
“ 收 到 针对 BDF 为 某 某 的 配置 读 请 求 就 将 其 转发 给 
某 号 端口 ”， 这 样 就 相当 于 将 该 端口 连接 的 EP 映 射 
到 该 BDF 上 了 。 还 记得 前 文中 我 们 提 到 过 PCI/PCIE 
网 络 中 的 设备 ID 是 根据 位 置 定 死 的 么 ? PCIE 网 络 其 
实 是 可 以 用 上 述 方法 灵活 配置 的 。 程 序 甚至 可 以 擅 
自 返 回 配置 读 请 求 的 应 答 ， 这 样 就 完全 虚拟 了 一 个 
EP 出 来 。 程 序 甚 至 可 以 虚拟 一 个 RC 出 来 ， 也 就 是 自 
己 发 出 配置 请 求 给 某 个 EP， 甚 至 擅自 分 配 地 址 以 及 
读 写 EP 的 BAR 空 间 ， 这 些 都 是 可 以 做 的 。 固 件 还 要 


负责 比如 路 由 表 的 写 入 等 关键 步骤 。 但 是 该 CPU 并 
不 会 介入 存储 器 读 写 以 及 Completion TLP 的 处 理 过 
程 (常规 的 存储 器 读 写 请 求 不 会 被 Crossbar 转 发 给 该 
CPU) ， 它 们 均 由 硬件 直接 路 由 转发 或 者 经 AT ЕР 
译 之 后 转发 ， 转 发 和 翻译 过 程 都 是 纯 数字 逻辑 执行 
的 ， 固 件 程 序 只 是 将 对 应 的 映射 表 、 路 由 表 写 入 到 
这 些 硬 件 中 而 已 。 

那么 ，CPU 是 如 何 从 Crossbar 上 接收 或 者 向 其 发 
送 TLP 的 呢 ? 要 接 入 PCIE Crossbar 收 发 TLP 必 须 用 一 
个 PCIE 控 制 器 。Host 端 的 CPU 一 般 都 比较 高 端 ， 都 
是 自 带 PCIE 控 制 器 的 。 但 是 有 不 少 柑 入 式 CPU 并 不 
自 带 PCIE 控 制 器 ， 其 中 就 包括 该 产品 使 用 的 MIPS 核 
心 。 所 以 ， 我 们 必须 增加 一 个 额外 的 PCIE 控 制 器 ， 
这 也 就 是 图 7-107 中 所 示 的 PPU (PCIE Processing 
Unit) 。PPU 内 部 的 细节 架构 如 图 7-108 所 示 。 可 以 
看 到 其 基本 是 通过 队列 +DMA 控 制 器 来 从 PCS 的 地 址 
空间 中 拿 到 命令 和 数据 ， 利 用 其 内 部 的 TLP Generator 
(以 及 DLLP Generator 等 链 路 层 和 物理 层 部 件 ) 根 
据 命 令 和 参数 封装 出 TLP/DLLP， 然 后 将 它们 发 送 到 
Crossbar 进 行路 由 。 接 收 的 数据 也 做 类 似 处 理 ， 只 不 
过 方向 相反 。 

下 面 我 们 来 看 一 下 Stack 内 部 的 细节 。 图 7-109 所 
示 为 PCIE 控 制 器 Stack 架 构图 以 及 其 与 周边 角色 的 关 
系 示意 图 。Switch 中 的 PCIE Stack 基 本 上 由 两 大 部 分 
组 成 。 第 一 部 分 是 物理 层 、 链 路 层 和 事务 层 对 应 的 硬 
件 模块 ， 这 三 个 模块 在 图 7-92/ 图 7-101 中 己 有 详细 介 
绍 。 另 一 大 部 分 则 是 错误 检测 与 处 理 模块 、NTB 地 址 / 
ID 翻译 表 和 TLP 编 辑 模块 、 性 能 /健康 统计 模块 。 这 三 
个 大 模块 从 事务 层 接收 并 处 理 TLP， 只 不 过 处 理 的 结 
果 是 交换 出 去 ， 而 不 是 打开 TLP 内 部 的 有 效 载荷 去 看 
看 发 送 方 发 来 的 是 什么 内 容 ， 后 者 往往 是 Host 主 CPU 
上 运行 的 程序 去 处 理 的 。 

接收 到 的 TLP 经 过 错误 处 理 之 后 被 放置 在 包 缓冲 
中 ， 然 后 被 并 行 输送 到 地 址 翻译 和 地 址 路 由 模块 。 如 
果 NTB 功 能 被 启用 ， 则 地 址 翻译 模块 输出 的 信号 将 会 
被 予以 采纳 并 输送 到 TLP 编 辑 器 进行 地 址 ID 修改 。 如 
果 NTB 功 能 没有 启用 ， 则 封闭 各 类 地 址 翻译 表 的 写 使 
能 信号 禁止 其 发 挥 作 用 ， 其 输出 的 结果 也 不 予 采 纳 。 
地 址 翻译 和 地 址 路 由 可 以 并 行 同时 进行 ， 因 为 它们 都 
需要 查 表 ， 前 者 查询 地 址 翻译 表 ， 后 者 查询 地 址 一 端 
口 路 由 表 。 这 里 可 能 产生 的 一 个 疑问 是 ， 在 没有 翻译 
出 目标 网 络 地 址 之 前 ， 用 原始 地 址 来 查 路 由 表 是 对 
的 么 ? 对 的 。 我 们 前 文中 提 到 过 ， 凡 是 落 入 AT EP 的 
BAR 空 间 的 访 存 请 求 TLP， 先 不 管 其 目标 网 络 地址 会 
是 什么 〈 正 在 查 ) ， 但 是 该 TLP 一 定 需要 被 路 由 到 对 
应 的 目标 网 络 ， 那 么 目标 网 络 与 本 网 络 的 级 联 端口 是 
哪个 ? 通过 查 路 由 表 得 出 。 所 以 ， 地 址 翻译 表 和 路 由 
表 没 有 依赖 关系 ， 它 们 可 以 并 行 查找 。 
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前 文中 提 到 过 的 AT EP 的 BAR#0 存 储 器 空间 中 
存放 着 各 种 地 址 /ID 翻译 表 ， 那 么 这 些 存储 器 物理 上 
处 于 什么 位 置 ? 是 的 ， 它 们 在 物理 上 其 实 就 是 处 于 
如 图 7-109 所 示 的 对 应 的 位 置 。 那 么 ，NTB 驱 动 程序 
向 AT EP 的 BAR#0 空 间 某 地 址 写 入 映射 表 指针 条 目 
时 ，Host CPU/RC 其 实 是 向 该 地 址 区 域 发 出 访 存 写 
请 求 TLP， 该 TLP 必 须 先 被 路 由 到 嵌入 式 主 控 CPU 
所 连接 的 端口 ( 路 由 过 程 需要 查 路 由 表 ， 而 路 由 表 
在 一 开始 就 被 设置 好 了 ， 因 为 Host 端 设备 管理 程序 
将 分 配 好 的 BAR#0 的 物理 基地 址 写 入 BAR#0 的 时 
候 ， 这 个 配置 写 请 求 会 被 路 由 到 PPU 端 口 从 而 转发 
给 主 控 CPU， 后 者 收 到 该 指针 ， 就 会 更 新 地 址 ~ 端 
口 路 由 表 ， 才 会 导致 所 有 访问 BAR#0 空 间 的 TLP 
也 被 路 由 到 主 控 CPU ) 。 然 后 端口 上 的 PPU 将 整个 
TLP 数 据 包 DMA 到 主 控 CPU 可 寻 址 的 地 址 空间 ( 比 
如 AXI 总 线 上 的 SRAM ) ， 然 后 发 出 中 断 ， 触 发 固 
件 中 对 应 的 程序 运行 处 理 该 TLP。 固 件 分 析 该 TLP 
的 包头 ,发现 其 是 访问 虚拟 AT EP 的 的 对 应 地 址 ， 
通过 分 析 获 知 该 地 址 对 应 着 某 某 映 射 表 中 某 某 条 


目 ， 所 以 主 控 CPU 在 将 TLP 中 的 Payload 通 过 Switch 
内 部 的 数据 通路 ， 写 入 到 这 些 存放 着 映射 表 的 存储 
器 中 。 所 以 ， 向 AT EP 的 BAR#0 中 写 入 消息 ， 其 实 
是 与 固件 在 沟通 ， 因 为 AT EP 是 固件 虚拟 出 来 的 ， 
并 且 固 件 也 设置 好 了 对 应 的 路 由 通路 。 


路 由 表 又 包含 多 类 ， 前 文中 介绍 过 的 场景 都 是 走 
常规 路 由 表 。 还 有 一 类 是 组 播 路 由 表 。 组 播 是 PCIE 
Switch 提供 的 一 个 特殊 功能 ， 其 可 以 将 一 份 相同 的 数 
据 Payload (TLP) ， 复 制 多 份 并 写 入 到 多 个 不 同 网 络 
中 的 不 同 设备 /RC 的 存储 器 的 不 同 地 址 上 。 这 对 一 些 
需要 做 数据 元 余 保护 的 场景 比较 有 用 。 比 如 Host 端 程 
序 想 同时 向 两 个 EP 设 备 中 写 入 相同 的 数据 ， 当 一 个 
EP 故障 后 ， 另 一 个 EP 可 以 继续 提供 服务 ， 此 时 Host 
程序 可 以 分 别 发 起 两 笔 JO 请 求 各 发 向 其 中 一 个 EP， 
但 是 如 果 PCIE Switch 支持 组 播 功能 ， 经 过 配置 之 后 ， 
Host 端 可 以 只 发 送 一 个 IO 请 求 ， 产 生 的 存储 器 写 TLP 
会 被 Switch 自动 复制 给 另 一 个 EP。 组 播 路 由 表 中 保存 
的 就 是 组 播 组 (Multicast Group) 描述 信息 。 比 如 哪 
些 端口 在 同一 个 组 里 ， 在 同一 个 组 里 的 所 有 EP 会 接收 
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到 相同 的 存储 器 写 TLP， 或 者 可 以 配置 更 精细 
的 粒度 ， 比 如 只 有 访问 某 某 地 址 的 TLP 才 会 
被 组 播 ， 等 等 。 通 过 查询 组 播 路 由 表 ，PCIE 
Switch 就 能 知道 一 个 ILP 到 底 应 该 复制 给 哪些 
EP。 隐 式 路 由 表 相 当 于 默认 路 由 表 ， 其 中 记 
录 了 默认 出 方向 端口 的 端口 号 。 有 些 特殊 的 
TLP 必 须 被 转发 给 本 网 络 的 RC 端 ， 也 就 是 总 
是 往 上 行 端口 转发 。 那 么 凡是 收 到 这 类 TLP， 
PCIE Switch 就 查询 隐 式 路 由 表 找 到 哪个 端口 
是 上 行 端口 。 

TLP 经 过 地 址 /ID 翻译 表 +TLP 编 辑 器 之 
后 ， 变 成 了 带 有 目标 网 络 地 址 /ID 的 新 TLP， 
同时 经 过 路 由 表 的 查找 ， 也 找到 了 该 新 TLP 
应 该 被 转发 到 的 目标 端口 号 。 然 后 TLP 编 辑 
器 将 TLP 以 及 端口 号 信息 输送 给 Crossbar 交 换 
和 矩阵， 控制 对 应 的 电路 将 TLP 发 送 到 对 应 的 
端口 。 

PCIE Switch 内 部 的 各 个 模块 电路 ， 都 会 
有 各 种 保存 参数 和 运行 状态 的 寄存 器 ， 前 者 
可 读 可 写 ， 后 者 一 般 只 读 。Switch 内 部 的 嵌入 
式 主 控 CPU 上 运行 的 固件 可 以 通过 向 这 些 寄 
存 器 写 入 对 应 的 参数 ， 从 而 控制 各 模块 的 运 
行 模式 ， 通 过 读 取 状态 寄存 器 的 值 来 获取 各 
种 运行 时 信息 ， 继 而 可 以 生成 运行 日 志 。 

在 PCIE Switch 虚拟 分 区 和 虚拟 NTB (AT 
ЕР) 场景 下 ， 位 于 不 同 分 区 的 AT EP 之 间 要 
想 传 递 一 些 指针 等 消息 时 ， 依 然 是 通过 访 
问 本 侧 BAR#0 中 对 应 的 Message Register 实 
现 的 ， 只 不 过 现在 ， 所 有 针对 BAR#0 空 间 
的 访问 都 会 被 路 由 到 嵌入 式 CPU 处 理 。 由 于 
这 些 虚拟 的 AT EP 的 BAR#0 存 储 器 空间 其 实 
是 位 于 嵌入 式 CPU 上 挂 接 的 SRAM 中 的 〈 地 
址 翻译 表 等 除外 ， 其 被 直接 映射 到 物理 上 的 
真 映射 表 中 ) ， 这 就 更 好 办 了 。 固 件 程序 只 
要 看 到 是 写 入 Message Register 的 内 容 ， 则 
根据 映射 关系 ， 直 接 将 该 内 容 写 入 到 被 映射 
到 的 目标 AT EP 的 对 应 Message Register 中 ， 
然后 固件 再 直接 发 送 一 个 中 断 消息 给 目标 分 
区 的 Host 端 ， 让 其 NTB 驱 动 程序 来 读 取出 消 
息 。NTB 驱 动 读 消息 时 ， 发 送 的 其 实 是 针对 
目标 分 区 AT EP 的 BAR#0 空 间 里 的 Message 
Register， 而 它 其 实 位 于 嵌入 式 CPU 的 SRAM 
中 ， 加 之 所 有 针对 AT EP 的 BAR#0 的 存储 器 
读 写 访问 都 会 被 路 由 给 嵌入 式 CPU， 那 么 固 
件 就 可 以 将 对 应 的 消息 从 SRAM 中 读 出 并 封 
装 成 TLP 返 回 给 请 求 方 ， 完 成 了 消息 传递 的 
任务 。 

这 种 在 不 同 分 区 的 EP 之 间 传 递 消 息 的 
过 程 ， 其 本 质 上 还 是 利用 了 存储 器 读 写 TLP 
来 实现 ， 也 就 是 在 各 自 EP 的 BAR#0 空 间 内 
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图 7-109 ”PCIE 控 制 器 Stack 架 构图 以 及 其 与 周边 角色 的 关系 
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开辟 对 应 的 Message Register 寄 存 器 作为 中 转 ， 然 后 
在 NTB 上 如果 是 物理 NTB 桥 的 话 ) 或 者 在 固件 中 
(如 果 是 虚拟 分 区 虚拟 NTB 桥 的 话 ) 建立 好 源 EP 的 
Message Register 和 目标 EP 的 Message Register 的 映射 
关系 。 这 样 ， 源 EP 写 入 源 Message Register 的 数据 ， 

便 会 被 物理 NTB 或 者 虚拟 NTB (固件 ) 复制 到 目标 
EP 的 Message Register 中 ， 然 后 再 通过 触发 中 断 来 
通知 对 方 消息 已 经 发 送 到 。 我 们 将 本 方 用 于 传送 消 
息 给 对 方 的 Message Register 称 为 Outbound Message 
Register (OBMR) ， 意 即 该 寄存 器 中 的 内 容 将 会 
被 复制 到 对 方 ， 而 将 对 方 用 于 接收 发 送 方 的 消息 
的 Message Register 称 为 Inbound Message Register 
CIBMR) ， 意 即 其 存放 从 远 端 接收 到 的 消息 。 每 个 
AT EP 既 有 OBMR 又 有 IBMR， 因 为 数据 传送 是 双向 
的 。 如 果 一 个 PCIE Switch 上 有 多 个 分 区 ， 那 么 每 个 
AT EP 上 就 可 能 有 多 个 OBMR 和 多 个 IBMR， 分 别 对 
应 每 个 分 区 。 

其 实 ，PCIE 网 络 的 设计 者 一 开始 是 为 大 家 准备 好 

一 个 消息 传送 框架 的 。 


7.4.1.10 在 PCIE 网 络 中 传递 消息 


前 文中 给 出 的 场景 都 是 存储 器 读 写 和 配置 读 写 的 
场景 ， 这 些 场景 只 是 PCIE 网 络 事务 中 的 一 部 分 ， 但 
是 却 是 关键 部 分 ， 也 是 最 常用 的 场景 。 表 7-1 中 列 出 
了 全 部 事务 类 型 ， 其 中 有 两 种 用 于 传递 消息 的 事务 类 
型 ， Message Request 或 者 Message Request with Data, 
前 文中 介绍 过 的 PCI 总 线 ， 并 不 只 有 数据 /地 址 信和 号 
线 ， 还 有 一 堆 控制 信号 线 、 状 态 信号 线 ， 以 及 中 断 信 
号 线 。 这 些 边 带 信号 (Side Band Signal， 意 即位 于 传 
递 数据 /地 址 主干 通道 旁边 的 控制 、 状 态 等 辅助 信号 ， 
虽然 是 辅助 ， 但 是 也 是 必需 的 ) ， 在 PCIE 网 络 中 ， 有 
些 被 直接 嵌入 到 了 TLP 包 头 中 ， 比 如 CRC 校 验 字段 。 
在 PCI 总 线 时 代 ， 接 收 方 是 直接 使 用 单独 的 信号 线 告 
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端口 。 消 息 TLP 也 可 以 包含 目标 存储 器 地 址 。 既 然 可 
以 包含 存储 器 地 址 ， 为 什么 还 算 作 消 息 TLP 而 不 是 访 
存 TLP 呢 ? 你 可 以 在 一 个 消息 TLP 的 8 一 12 字 节 中 给 
出 存储 器 地 址 ， 然 后 在 路 由 方式 字段 设置 为 按照 地 
址 路 由 ， 那 么 Switch 端口 前 端的 Stack 中 负责 路 由 的 
电路 就 会 拿 着 这 个 地 址 去 匹配 路 由 表 ， 然 后 将 该 消 
息 转发 给 对 应 端口 。 目 标 设备 收 到 该 消息 之 后 ， 并 
不 一 定 真 的 去 对 其 中 所 包含 的 这 个 存储 器 地 址 做 什 
么 读 写 操作 ， 因 为 接收 端 首先 判断 该 TLP 是 什么 类 
型 ， 只 要 其 是 消息 类 型 ， 那 证 明 其 中 包含 的 存储 器 
地 址 并 不 是 真 的 想 让 自己 去 访 存 ， 而 仅仅 用 作 路 由 
而 已 。 这 就 给 通过 PCIE 传 递 消息 提供 了 最 灵活 的 路 
由 方式 。 


+0 +1 +2 +3 
zlelslalsl2l1lolzlelslalslzl1lolzlelslalalzlılolzlelslalalzlılo 
aneo [Emi], туре, Те рр] _ Lenon 
Byte 4 Requester ID Tag M assage 


Byte 8 Bytes 8-11 Vary with Message Code Field 


Bytes 12-15 Vary with Message Code Field 


Byte 12 


Type Field Bits Description 


Bit4:3 Defines the type of transaction: 


10b = Message TLP 


Bit 2:0 Message Routing Subfield R[2:0] 

* 000b = Implicit - Route to the Root Complex 

= 0015 = Route by Address (bytes 8-15 of header contain address) 
• 010b = Route by ID (bytes 8-9 of header contain ID) 

= 011b- Implicit - Broadcast downstream 

* 100b = Implicit - Local: terminate at receiver 

* 101b - Implicit - Gather & route to the Root Complex 

* 1105 - 111b = Reserved: terminate at receiver 


Message Code [7:0] | Byte7 Bit70 | This field contains the code indicating 
the type of message being sent. 

0000 0000b = Unlock Message 

0001 0000b = Lat. Tolerance Reporting 
0001 0010b = Optimized Вийег Flush/Fill 
0001 xxeob = Power Mgt. Message 

0010 Oxxxb = INTx Message 

0011 00xxb = Error Message 

0100 хо = Ignored Messages 

0101 0000b = Set Slot Power Message 
0111 111xb = Vendor-Defined Messages 


诉 发 送 方 “ 收 到 的 数据 包 是 否 有 误 ” 的 。 而 另外 一 些 
则 无 法 嵌入 到 TLP 中 跟随 每 个 数据 包 传送 ， 比 如 中 断 
信号 ， 因 为 设备 并 不 是 无 时 无 刻 都 在 发 中 断 的 ， 所 以 
没 必要 将 其 嵌入 每 个 ITLP 作 为 包头 中 固定 字段 。 更 好 
的 方式 是 ， 设 备 要 发 出 中 断 请 求 时 ， 能 够 用 某 种 机 制 
将 这 个 中 断 请 求 封装 到 一 个 数据 包 里 路 由 给 RC， 相 
当 于 存在 一 条 虚拟 的 中 断 线 一 样 ， 用 来 顶替 PCI 时 代 
的 物理 上 真实 存在 的 中 断 信号 线 。 除 了 中 断 信号 之 
外 ， 其 他 一 些 PCI 总 线 时 代 的 边 带 信号 也 被 转化 为 对 
应 的 Message 请 求 了 。 

Message 请 求 TLP 的 格式 如 图 7-110 所 示 。 消 息 
TLP 在 包头 中 采用 Format 字 段 的 001 或 者 011 来 表示 上 
述 两 种 不 同 的 消息 TLP 大 类 。 用 Type 字段 的 低 3 位 来 
表示 该 TLP 的 可 选 的 8 种 路 由 方式 。 交 换 器 根据 这 个 
字段 来 决定 到 底 采 用 什么 路 由 方式 ， 比 如 是 根据 TLP 
中 给 出 的 地 址 来 路 由 ， 还 是 ID 路 由 ， 抑 或 是 隐 式 路 
由 到 RC， 甚 至 可 以 隐 式 路 由 该 TLP 广 播 到 所 有 下 行 


图 7-110 消息 请 求 TLP 的 格式 


至 于 用 消息 类 TLP 传 递 一 些 什 么 消息 ，PCIE 定 
义 了 一 些 标准 消息 格式 ， 通 过 Message Code 字 段 来 区 
分 ， 其 中 INTx 消 息 就 是 用 来 传递 中 断 信号 的 标准 消 
息 格式 。 如 果 想 传递 一 些 自 定义 的 信息 ， 就 得 使 用 其 
中 的 Vendor Defined Message。 比 如 前 文中 所 述 的 两 
个 网 络 /分 区 中 的 NTB 驱 动 程序 之 间 传递 申请 内 存 的 
请 求 和 返回 的 指针 ， 这 个 其 实 就 可 以 利用 消息 TLP 来 
传递 。 但 是 不 幸 的 是 ， 目 前 商用 CPU 中 集成 的 PCIE 
控制 器 并 不 会 处 理 接收 到 的 自 定义 消息 TLP。 想 一 
下 ，RC 接 收 到 访 存 TLP， 就 去 主 存 中 访 存 ，RC 收 到 
INTx 消 息 ， 就 去 中 断 CPU 核 心 ，RC 收 到 配置 读 请 求 
的 Completion 返 回 TLP， 就 将 数据 放置 在 前 端 总 线 上 
从 而 让 访问 CONFIG DATA 寄 存 器 的 访 存 请 求 拿 到 数 
据 。 但 是 ，RC 如 果 接 收 到 自 定义 类 型 的 消息 TLP， 它 
该 怎么 办 呢 ? 它 并 不 知道 该 怎么 办 ， 既 然 消 息 是 自 定 


3 可 大 话 计算 机 一 -计算 机 系统 底层 架构 原理 极限 剖析 


义 的 类 型 ， 那 么 该 TLP 一 定 要 被 转发 给 Host 端 上 的 程 
序 来 处 理 。 但 是 似乎 转发 无 路 ， 除 非 是 经 过 特殊 设计 
过 的 PCIE 控 制 器 (比如 上 文中 提 到 过 的 PPU)》 ， 后 者 
可 以 将 消息 放 入 队列 中 ， 然 后 Host 端 程序 从 队列 中 取 
走 该 消息 。 但 是 目前 CPU 中 的 RC 并 不 提供 这 种 与 Host 
端 程序 的 对 接 形式 。Host 端 程序 只 能 通过 访 存 的 形式 
控制 RC， 比 如 读 写 RC 上 的 CONFIG ADD 和 CONFIG_ 
DATA 寄 存 器 来 触发 RC 发 出 配置 读 写 TLP， 但 是 无 法 
触发 RC 发 出 消息 类 TLP， 除 非 RC 也 提供 对 应 的 寄存 
器 比如 MSG_SEND 寄 存 器 。 

正 因 如 此 ， 前 文中 介绍 的 两 个 NTB 驱 动 程序 之 
间 的 消息 传递 并 没有 使 用 PCIE 提 供 的 消息 框架 ， 而 
是 采用 了 访 存 方式 ， 也 就 是 将 消息 利用 存储 器 写 TLP 

(程序 直接 访问 该 地 址 ，RC 会 自动 转换 成 TLP 数 据 包 

faculty) 直接 写 入 本 方 对 应 的 AT EP 上 的 BAR#0 中 的 
OBMR (Outbound Message Register) 。 由 于 该 TLP 会 
被 路 由 到 Switch 主 控 CPU， 然 后 再 由 固件 负责 写 入 到 
目标 设备 的 IBMR (Inbound Message Register) ， 然 后 
本 方 NTB 驱 动 程序 再 用 同样 的 方式 写 入 Doorbell 寄 存 器 
一 个 值 ， 告 诉 主 控 CPU 发 出 一 个 中 断 信号 给 目标 RC， 
触发 对 方 的 NTB 驱 动 程序 从 其 对 应 的 AT EP 的 BAR#0 中 
的 BMR 中 读 出 之 前 写 入 的 Message， 这 样 便 完成 了 通 
信 。 上 述 中 断 过 程 类 似 于 7.2 节 中 介绍 过 的 PI 中 断 。 

当然 ， 对 于 Switch 内 部 的 端口 上 的 PCIE 控 制 器 或 者 
PPU， 它 们 都 是 可 以 被 触发 发 出 各 种 TLP 的 。 因 为 作为 一 
个 Switch， 其 需要 保证 各 种 场景 下 的 兼容 性 ， 但 是 实际 
场景 下 的 程序 是 否 使 用 ， 就 另 当 别论 了 。 更 多 时 候 大 家 
都 倾向 于 用 访 存 方式 来 传递 消息 ， 因 为 这 样 更 加 统一 。 

既然 这 样 的 话 ， 是 不 是 INTx 消 息 也 可 以 使 用 访 存 
的 方式 来 替代 ? 比如 ， 向 RC 的 某 个 存储 器 地 址 写 入 
某 个 值 ，RC 收 到 该 存储 器 写 TLP， 便 去 向 CPU 核心 发 
出 中 断 信号 ? 这 样 完全 可 以 ， 而 且 这 也 是 目前 主流 的 
PCIE 中 断 方式 。 下 面 我 们 就 来 看 一 下 中 断 信 号 在 PCI/ 
PCIE 网 络 中 的 传递 和 处 理 方式 。 


7.4.1.11 在 PCI 网 络 中 传递 中 断 信 号 


每 个 PCI 设 备 最 多 可 以 出 4 个 中 断 信号 ， 分 别 为 
INT A/B/C/D， 不 过 多 数 设备 只 出 一 个 INTA 信 和 号。 一 
个 设备 为 什么 需要 4 个 中 断 信 号 ?因为 前 文中 我 们 提 
到 过 ， 一 个 PCI 设 备 是 可 以 细 分 为 最 多 8 个 子 设备 的 
(也 就 是 Function)〉， 每 个 Function 都 需要 一 个 中 断 
信号 ， 有 各 自 的 中 断 向 量 ， 各 自 对 应 的 中 断 服务 程序 
和 了 驱动 程序 互 不 干涉 ， 它 们 只 是 不 得 已 共享 同一 个 
PCI 端 口 而 已 。 那 每 个 PCI 设 备 应 该 出 8 个 中 断 信号 线 
才 对 。 为 何 只 有 4 个 ? 这 里 有 个 有 趣 的 历史 原因 。 早 
期 ， 由 于 Intel 8259A PIC 可 供 输 入 的 IRQ# 信 号 只 有 8 
个 ， 而 形形色色 的 VO 设备 却 有 很 多 ， 人 们 当时 普遍 
采用 将 两 个 8259A PIC 级 联 起 来 的 方案 。 即 便 如 此 ， 
除去 那些 必需 的 IO 设备 所 占用 的 信号 线 ， 剩 余 的 信 
号 线 所 剩 无 几 ， 最 多 还 剩 4 个 ， 于 是 PCI 规 范 不 得 已 就 
只 为 PCIE 设 备 定义 了 4 个 中 断 信号 。 


摆 在 眼前 的 一 个 问题 就 是 ， 如 果 有 一 个 PCI 设 备 
真 的 被 设计 上 了 8 个 Function (虽然 几乎 不 存在 这 种 产 
ñ) ， 那 么 这 4 根 中 断 线 就 不 够 它们 用 。 另 外 ， 系 统 
中 总 不 可 能 只 有 一 个 PCI 设 备 ， 如 果 有 多 个 物理 PCI 
设备 ，4 根 线 更 不 够 用 。 人 们 想 出 了 一 些 办 法 来 让 PCI 
Function/ 设 备 之 间 共 享 着 4 根 线 。 

如 图 7-111 所 示 ， 如 果 把 所 有 Function/ 设 备 的 中 断 
线 并 联 起 来 的 话 〈 其 实 应 该 是 相 OR 起 来 ) ЖА, 
任何 一 个 设备 从 其 哪个 信号 线 发 出 中 断 信号 ， 这 都 会 
被 PIC 感知 到 并 中 断 CPU， 也 就 是 所 谓 的 多 个 设备 共 
享 同 一 个 中 断 信 号 。 问 题 是 ， 当 某 个 信号 到 来 时 ， 
CPU 如 何 分 清 到 底 是 哪个 设备 发 送 的 信号 ? 这 种 情况 
下 ， 就 连 中 断 控制 器 都 无 法 分 清 ， 更 别提 CPU 了 。 于 
是 ， 人 们 不 得 不 这 样 来 处 理 多 个 设备 共享 中 断 信号 的 
场景 : 当 收 到 某 个 中 断 向 量 时 ， 对 应 的 中 断 服务 程序 
首先 根据 中 断 向 量 判断 出 IRQ# 号 ， 再 根据 IRQ# 号 判 
断 出 目前 有 几 个 设备 共享 该 IRQ#， 然 后 依次 执行 对 应 
设备 的 中 断 服务 程序 ， 挨 个 试 ， 权 当 共 享 该 信号 的 所 
有 设备 都 被 按 了 门铃 。 如 果 第 一 个 设备 并 没有 发 出 中 
断 ， 其 中 断 服务 程序 运行 之 后 会 无 事 可 做 。 然 后 再 运 
行 第 二 个 设备 的 中 断 服务 程序 ， 如 果 该 设备 的 确 发 出 
了 中 断 ， 那 么 会 得 到 处 理 。 然 后 再 运行 第 三 个 设备 的 
中 断 服 务 程序 ， 如 果 该 设备 也 发 出 了 中 断 ， 则 会 得 到 
处 理 。 当 共享 同一 个 信号 的 设备 发 出 的 所 有 中 断 都 处 
理 完 之 后 ， 该 信号 线 上 就 没有 中 断 信号 了 。 


INTA 
INTB 


INTC 
INTD 


设备 1 


设备 2 
图 7-111 多 设备 共享 中 断 信号 


设备 3 


对 于 PCI 总 线 ， 所 有 PCI 设 备 的 中 断 信号 线 与 中 
断 控制 器 直接 相连 (也 可 以 通过 PCI 桥 接 器 的 中 转 ， 
但 是 后 者 不 会 对 4 根 线 做 任何 交叉 重 定向 改变 输出 路 
径 ，4 输 入 对 着 4 输出 ， 一 对 一 直接 中 转 信号 ， 与 直 连 
相同 ， 只 不 过 是 要 把 信号 中 继 一 下 ) ， 共 享 使 用 4 根 
中 断 线 。 让 我 们 来 看 看 PCI 规 范 里 推荐 的 中 断 号 共享 
映射 关系 ， 如 图 7-112 左 侧 所 示 。 所 有 设备 的 4 个 中 断 
信号 〈 最 大 4 个 ， 一 般 只 有 1 个 ， 但 是 要 按照 最 大 来 设 
计 ) 可 以 按照 这 个 映射 关系 被 共享 的 并 联 说 并 联 不 
准确 ， 多 路 独立 的 数字 信号 是 不 能 并 联 的 ， 必 须 是 用 
逻辑 门 来 相 或 处 理 ) 到 一 起 并 汇总 到 中 断 控制 器 的 4 
根 IRQ# 输 入 线 上 。 其 次 ，BIOS 也 需要 知晓 这 个 映射 
关系 ,这 样 也 就 能 够 让 底层 中 断 服务 程序 知晓 收 到 哪 
个 中 断 信 号 ， 需 要 去 遍历 执行 哪些 ID 对 应 的 设备 的 中 
断 服务 程序 (可 能 有 些 ID 对 应 的 设备 不 在 位 ， 那 程序 
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图 7-112 ”PCI 总 线 内 的 设备 中 断 线 与 总 线 中 断 线 映射 关系 
就 不 需要 执行 ) 。 实际 也 可 以 不 使 用 默认 的 映射 关系 ， 而 是 如 图 
程序 是 通过 PCI 设 备 的 配置 空间 寄存 器 中 的 固定 。 7-112 右 侧 所 示 的 那样 ， 用 一 个 中 断 信号 交叉 连接 器 


位 置 查询 到 该 设备 采用 哪个 INT 引 脚 发 送 中 断 信号 ， 
如 图 7-67 最 下 方 的 Interrupt Pin 字 段 所 示 。PCI 设 备 加 
电 之 后 ， 其 内 部 的 固件 需要 主动 将 该 寄存 器 更 新 为 对 
应 的 值 ， 以 便 将 这 个 信息 展示 给 Host 端 的 设备 管理 程 
序 以 及 驱动 程序 。 用 哪个 INT 引 脚 发 送 中 断 是 由 设备 
硬件 和 固件 决定 的 ， 多 数 PCI 设 备 只 使 用 INTA。 

图 7-112 左 侧 所 示 的 关系 为 PCI 标 准 中 推荐 的 映射 
关系 。 如 果 所 有 PCI 设 备 的 中 断 线 就 是 用 这 种 固定 映 
射 与 中 断 控制 器 的 IRQ 引 脚 相连 的 话 ， 那 么 Host 端 设 
备 管理 程序 会 直接 用 这 个 关系 计算 出 对 应 Device ID 的 
设备 的 中 端 线 被 映射 在 中 断 控制 器 上 的 引 脚 IRQ 号 ， 
从 而 将 IRQ 号 写 入 到 对 应 PCI 设 备 配置 空间 寄存 器 中 的 
Interrupt Line 字 段 中 ， 以 供 后 续 加 载 的 设备 驱动 程序 
读 出 并 知晓 ， 如 图 7-113 所 示 。 
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图 7-113 配置 空间 中 记录 的 中 断 映 射 信息 


来 自 定义 地 将 输入 导向 到 输出 。 这 个 设备 相当 于 一 
个 INTx# 信 号 路 由 器 ， 可 以 是 出 厂 就 定 死 的 映射 关系 
的 、 不 可 编程 的 器 件 ， 也 可 以 是 可 编程 的 、 可 动态 改 
变 映 射 关 系 的 器 件 。 不 管 方式 怎样 ， 最 终 都 需要 由 设 
备 管理 程序 将 最 终 映 射 到 的 中 断 控制 器 上 的 中 断 线 号 
写 入 PCI 设 备 的 配置 空间 中 记录 。 被 分 配 的 IRQ 号 被 
BIOS 记 录 在 设备 信息 表 中 ， 同 时 也 被 用 于 生成 中 断 向 
量 表 。 当 设备 驱动 程序 注册 到 系统 时 ， 设 备 管理 程序 
会 根据 该 设备 驱动 程序 所 声明 的 能 够 驱动 哪些 Vendor 
ID、Revision ID 的 设备 ， 到 设备 信息 表 中 查找 对 应 
VID/RID 的 设备 的 中 断 向 量 号 ， 然 后 将 设备 驱动 程序 
所 声明 的 中 断 服务 程序 入 口 指针 写 入 到 中 断 向 量 表 中 
该 向 量 对 应 的 条 目 中 ， 这 就 完成 了 驱动 程序 的 中 断 挂 
接 步骤 。 


从 图 7-113 中 可 以 得 出 的 一 个 结论 是 ， 每 个 ID 
(BDF) 最 多 只 能 有 一 个 中 断 号 。 如 果 每 个 设备 只 
能 有 一 个 中 断 向 量 ， 那 么 不 管 发 生 哪 个 事件 ， 都 是 
用 相同 的 中 断 号 触发 相同 的 中 断 服务 程序 运行 ， 中 
断 服务 程序 就 不 得 不 读 取 设 备 的 相关 寄存 器 ， 再 去 
进一步 判断 到 底 发 生 了 什么 事件 ， 然 后 再 跳 转 到 对 
应 的 处 理 逻辑 中 处 理 。 这 个 过 程 的 时 延 会 很 高 。 如 
果 能 够 让 一 个 设备 ID 拥 有 多 个 中 断 、 占 据 多 个 中 
断 向 量 ， 每 个 中 断 向 量 各 有 一 个 中 断 服务 程序 来 处 
理 ， 这 样 可 以 让 设备 的 运行 更 加 灵活 ， 不 同事 件 出 
现时 发 出 不 同 的 中 断 ， 使 用 不 同 的 中 断 服务 程序 做 
不 同 的 处 理 ， 不 需要 先 判 断 再 跳 转 。 但 是 在 PCI 规 
范 的 限制 下 ， 这 一 点 无 法 做 到 。 而 下 文中 我 们 将 要 
介绍 的 MSI 和 MSI-X 中 断 模式 ， 则 可 以 轻易 做 到 这 
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至 此 我 们 可 以 结合 上 述 介绍 回顾 一 下 7.2 节 中 介绍 
过 的 中 断 流程 。 PCI 设 备 在 其 中 断 引 脚 上 拉 高 电 平 ， 
该 电 平 被 传送 到 中 断 控制 器 的 某 个 引 脚 上 ， 中 断 控制 
器 按照 对 应 规则 生成 中 断 向 量 ( 不 能 用 中 断 控制 器 上 
的 IRQ 号 直接 作为 中 断 向 量 号 的 原因 请 见 7.2 节 中 的 介 
绍 ) ， 同 时 对 CPU 上 的 中 断 引 脚 发 出 信号 。CPU 被 中 
断后 从 中 断 控制 器 获取 到 中 断 向 量 ， 查 中 断 向 量 表 ， 
跳 转 到 对 应 的 中 断 服务 程序 执行 。 


设备 管理 程序 或 者 PCI 设 备 的 驱动 程序 可 以 通 
过 写 入 设备 配置 寄存 器 中 的 Command Register 中 的 
Interrupt Disable 位 来 关闭 该 设备 的 中 断 ， 只 要 其 被 
置 位 ， 该 设备 就 不 会 发 出 中 断 。 关 中 断 在 有 些 场 景 
下 是 必须 的 ， 比 如 当 驱 动 程序 正在 做 一 些 关键 操作 
而 不 能 被 打 断 的 时 候 ， 驱 动 程序 会 首先 关 挤 设备 中 
断 ， 做 完 之 后 再 打开 。 而 如 果 要 关闭 全 局 的 中 断 ， 
比如 某 个 CPU 上 运行 的 程序 不 想 被 打 断 ， 则 我 们 可 
以 采用 特殊 的 关中 断 机 器 指令 ， 将 该 CPU 上 的 Local 
APIC 中 断 控 制 器 设置 为 不 发 出 中 断 。 这 样 ，APIC 
即便 持续 接收 到 外 部 设备 的 中 断 请 求 ， 也 不 会 中 断 
CPU 的 运行 ， 直 到 中 断 被 打开 为 止 。 


7.4.1.12 在 PCIE 网 络 中 传递 中 断 信号 


PCIE Switch 采用 消息 方式 传递 任何 信号 ， 取 消 
了 所 有 边 带 信号 。 那 么 ，PCI 时 代 的 中 断 线 的 方式 ， 
就 需要 转化 成 INTx 中 断 消息 的 方式 来 传递 给 上 行 端 
O (RC) 。RC 解 析 这 个 消息 ， 从 中 提取 出 是 谁 、 哪 
个 信和 号 发 来 的 中 断 ， 然 后 将 其 转换 成 中 断 向 量 ， 中 断 
CPU 进入 后 续 处 理 。 

如 图 7-114 所 示 ， 在 PCIE 网 络 下 ，PCIE 设 备 由 于 
没有 边 带 信号 ， 所 以 直接 发 出 INTx 消 息 TLP 给 上 游 端 
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Assert_INTA ЩЩ 
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口 。 传 统 的 PCI 设 备 可 以 通过 PCIE~PCI 桥 接 器 接 入 
PCIE 网 络 ， 这 个 桥 需要 接收 PCI 中 断 线 信号 并 将 其 翻 
译 成 INTx 消 息 发 往 上 行 端口 。 由 于 PCI 时 代 的 INTx 信 
号 有 两 个 状态 来 表示 是 否 有 请 求 中 断 ， 再 加 上 每 个 设 
备 有 4 个 中 断 信号 〈 为 了 兼容 PCI 时 代 的 遗留 规则 ， 虽 
然 PCIE 设 备 没 有 边 带 信号 了 ， 但 是 依然 保持 了 这 4 个 
INT 标 识 ) ， 每 个 线 两 个 状态 ， 一 共有 8 种 状态 需要 
描述 。 这 8 个 状态 被 描述 在 INTx 消 息 包 中 的 Message 
Code 字 段 。 

由 于 中 断 控制 器 只 提供 4 根 IRQ 线 ， 而 PCIE 网 络 
中 的 所 有 设备 发 出 的 中 断 信号 依然 要 共享 这 4 根 线 ， 
对 应 的 共享 映射 关系 依然 遵循 〈 推 荐 遵循 ) 图 7-112 
所 示 。 这 样 的 话 ，RC 接 收 到 INTx 消 息 ， 需 要 根据 
Message Code 字 段 里 表明 的 INT 号 和 Requester ID 号 ， 
根据 映射 关系 表 计 算出 该 INT 消 息 最 终 对 应 哪 根 IRQ 
线 ， 然 后 向 中 断 控制 器 对 应 的 IRQ 线 发 送 中 断 信号 。 
同 理 ，Host 端 的 中 断 服务 程序 也 要 根据 这 个 共享 映射 
关系 来 判断 ， 该 IRQ 号 与 中 断 向 量 号 一 对 一 ) 都 有 
哪些 ID 的 PCIE/PCI 设 备 共享 ， 而 当前 系统 里 又 有 哪些 
ID 的 设备 在 位 ， 然 后 就 轮流 执行 这 些 ID 设备 对 应 的 中 
断 服务 程序 来 处 理 〈 这 个 过 程 上 文中 介绍 过 ) 。 


你 禁不住 会 问 ， 都 PCIE 时 代 了 ， 难 道中 断 控制 
器 依然 只 余 出 4 个 IRQ#H 引 脚 给 PCIPCIE 设 备用 么 ? 
其 实 完全 可 以 设计 出 拥有 更 多 IRQ 引 脚 的 中 断 控制 
器 ， 但 是 规则 已 经 这 样 定 了 ， 连 INTx 消 息 中 的 字 
段 也 都 规定 好 了 ， 就 4 个 ， 而 且 所 有 PCI/PCIE 设 备 
共享 ， 所 以 这 些 规则 想 要 彻底 改变 ， 还 是 比较 难 
的 。 而且 增 加 中 断 控制 器 的 引 脚 的 方式 也 略 显 策 
Ж, 1 用 一 表示 ，2 用 二 表示 ， 表 示 100 难 不 成 划 100 
根 横 线 ? 策 就 策 在 这 。 下 一 节 我 们 再 来 看 更 高 效 的 
+1 


+2 +3 
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20h = Assert_INTA 
21h = Assert_INTB 
22h = Assert_INTC 
23h = Assert_INTD 
24h = Deassert_INTA 
25h = Deassert_INTB 
26h = Deassert_INTC 
27h = Deassert_INTD 


图 7-114 PCIE 网 络 下 的 中 断 示 意图 及 INTx 消 息 格式 


仔细 观察 INTx 消 息 的 包头 会 发 现 ， 其 路 由 模式 
字段 被 设置 为 “接收 端 收 到 该 消息 就 不 再 路 由 ”的 模 
式 ， 这 是 为 何 呢 ? INTx 消 息 理应 路 由 到 RC 上 才 对 。 
其 原因 是 由 于 PCIE 网 络 中 可 能 会 存在 多 个 Switch 或 者 
PCIE~PCI 桥 接 器 ， 这 些 角色 可 能 会 将 收 到 的 INTx 消 
息 中 的 INT 表 示 重 新 映射 成 其 他 标识 ， 这 个 场景 会 发 
生 在 那些 不 按照 推荐 映射 关系 运作 的 系统 中 。 那 么 ， 
INTx 消 息 的 路 由 目标 就 不 能 被 设置 为 RC， 而 是 要 先 
交 给 上 游 的 桥 /Switch， 由 它们 做 相应 处 理 ， 再 继续 往 
上 游 发 送 。 
7.4.1.13 MSIMIS-X 中 断 方式 


面 对 众 多 的 PCIPCIE 设 备 ， 就 给 4 根 线 ， 于 心 何 
37 每 个 设备 ID 只 能 拥有 一 个 中 断 向 量 ， 这 个 限制 太 
死 。 所 以 ， 人 们 创造 出 更 高 效 的 方法 ， 也 就 是 消息 信 
号 中 断 (Message Signaled Interrupt, MSI) 以 及 其 升 
级 版 MSI-X 中 断 方式 。 

如 上 文 所 述 ， 传 统 的 中 断 方式 至 少 面 临 两 个 问 
题 : VO APIC 提 供 的 中 断 线 数量 太 少 ， 导 致 外 部 设备 
不 得 不 共享 中 断 ， 这 样 效率 很 低 ， 外 部 设备 先 要 提交 
中 断 信号 给 IO APIC， 后 者 再 将 中 断 提交 给 CPU 内 部 
的 Local APIC， 这 样 多 此 一 举 。 

为 什么 不 能 让 外 部 设备 直接 与 CPU 的 Local APIC 
通信 和 直接 提交 中 断 呢 ? 这 里 可 以 回顾 一 下 图 7-27。 显 
然 ， 外 部 PCIPCIE 设 备 与 CPU 之 间 本 身 就 是 有 通路 
的 。 什 么 通路 ? 访 存 通路 。 前 文中 提 到 过 ， 在 前 端 总 
线 上 ， 任 何 两 点 间 的 通信 其 实 都 可 以 转化 为 访 存 方式 
来 获取 通信 。 那 么 ， 如 果 每 个 CPU 的 Local APIC 控 制 
器 各 自 暴 露 一 些 寄存 器 地 址 并 纳入 全 局 路 由 表 ，PCI 
设备 只 要 将 中 断 信 号 通过 访 存 请 求 〈 存 储 器 写 TLP) 
写 入 到 该 寄存 器 里 ， 不 就 可 以 直接 让 CPU 的 Local 
APIC 收 到 了 吗 ? 后 者 再 触发 CPU 进入 中 断 处 理 流程 ， 
这 样 做 非常 高 效 。 这 就 是 所 谓 的 消息 触发 式 中 断 的 含 
义 。 再 想 一 下 ， 这 种 方式 传递 中 断 ， 还 会 受到 中 断 线 
数量 不 够 的 限制 吗 ? 完全 不 会 了 。 因 为 此 时 CPU 并 不 
是 根据 中 断 线 # 号 来 区 分 是 谁 了 ， 而 完全 是 通过 设备 
写 入 到 寄存 器 中 的 信息 来 区 分 ， 只 要 这 个 信息 字段 长 
度 够 长 ， 就 可 以 区 分 出 足够 量 的 不 同 设 备 ， 而 且 同 一 
个 设备 也 可 以 拥有 多 个 中 断 号 了 。 

好 ， 基 于 上 述 这 个 思路 ， 要 解决 如 下 几 个 问题 。 

ө ”如何 让 PCIE 设 备 知道 Local APIC 的 寄存 器 地 
址 是 多 少 ? 如 果 有 多 个 CPU， 那 么 要 把 哪个 / 些 CPU 的 
APIC 的 寄存 器 地 址 告诉 哪个 PCIE 设 备 ? PCIE 收 到 这 
些 指针 之 后 将 它们 保存 在 哪里 ? 

© PCIE 设 备 往 APIC 寡 存 器 地 址 中 都 写 些 什么 
AR? 有 什么 讲究 ? APIC 控 制 器 如 何 区 分 是 哪个 设备 
发 来 了 哪个 中 断 向 量 ? 如 何 做 到 同一 个 ID 的 设备 可 以 
向 APIC 发 出 不 同 的 中 断 标识 ? 

带 着 上 述 的 问题 ， 我 们 看 一 下 PCIE 规 范 制定 者 给 
出 的 设计 思路 。 如 果 你 深刻 理解 PCEE 网 络 的 全 貌 以 及 
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上 述 目 标 ， 我 相信 你 能 想 出 的 办 法 与 PCIE 规 范 制 定 者 
能 想 出 的 类 似 ， 只 不 过 规范 制定 者 会 考虑 更 多 细节 ， 
而 你 和 我 往往 只 能 理解 大 框架 罢了 。 

针对 第 一 个 问题 ， 在 每 个 PCIE 设 备 /Function 的 
配置 空间 寄存 器 中 开辟 一 个 新 寄存 器 。 设 备 管理 程 
序 枚 举 到 该 设备 后 ， 将 任何 一 个 CPU 〈 至 于 怎么 选择 
CPU， 取 决 于 设备 管理 程序 自己 的 决定 ， 比 如 尽量 均 
衡 ， 给 每 个 设备 映射 不 同 CPU 上 的 APIC 寄 存 器 ) 的 
APIC 暴 露 的 寄存 器 地 址 指针 写 入 到 该 寄存 器 中 ， 这 
样 就 可 以 让 PCIE 设 备 知道 APIC 的 地 址 。 设 备 只 需要 
向 该 地 址 写 入 一 串 值 ， 即 可 通知 APIC 控 制 器 “ 咬 ! 
开门 ， 是 我 ! ”你 是 谁 啊 ? “是 我 啊 ! ” Wt TE. 
“我 ”表示 不 了 任何 人 。 不 同 的 PCIE 设 备 如 果 都 向 
该 APIC 控 制 器 写 入 相同 的 值 ， 那 就 跟 说 “我 ”一 样 
了 ，APIC 将 无 法 区 分 到 底 是 谁 发 的 中 断 。 如 果 回 答 
改 成 “我 是 BOD1F2 啊 ! ”就 可 以 了 ， 也 就 是 向 APIC 
寄存 器 中 写 入 自己 的 BDF ID。 没 问题 ， 但 是 ， 如 前 
文中 所 说 ， 有 些 设备 /Function 希望 单个 Function ID 就 
可 以 拥有 多 个 中 断 号 ， 想 发 哪个 就 发 哪个 ， 想 点 Host 
端 哪个 中 断 服务 程序 来 处 理 就 点 哪个 。 那 只 说 “我 是 
BOD1F2” 显 然 不 够 。 所 以 ， 必 须 由 设备 管理 程序 来 
分 配给 设备 对 应 数量 的 上 暗号， 比如 “@%#&” 拿 好 ， 
这 就 是 你 能 用 的 中 断 标识 号 ，APIC 收 到 对 应 的 暗号 ， 
就 去 找 对 应 的 中 断 服务 程序 来 处 理 。 这 样 ， 设 备 管理 
程序 给 每 个 PCIE 设 备 都 分 配 一 定数 量 的 暗号 ， 比 如 
BO0D1F2 被 分 配 了 “(@%#&”， 而 设备 BOD1F0 则 被 分 
配 了 “! * 乎 ^”。 整 个 PCIE 网 络 内 的 每 个 设备 DD 的 暗 
号 都 不 同 ， 这 样 就 可 以 区 分 每 一 个 设备 发 来 的 每 一 个 
中 断 标识 了 。 设 备 管理 程序 如 何 知道 某 个 ID 的 设备 需 
要 分 配 多 少 个 暗号 ? 解 题 思路 想到 这 一 步 ， 大 家 已 经 
清楚 了 ， 每 个 设备 将 自己 要 申请 的 暗号 数量 预先 声明 
在 配置 空间 中 对 应 的 某 个 控制 寄存 器 中 ， 设 备 管理 程 
序 先 读 出 这 个 声明 ， 然 后 将 暗号 写 入 到 专门 放 暗号 的 
配置 寄存 器 ， 不 就 行 了 吗 。 这 和 对 BAR 的 分 配 如 出 一 
略 。 这 样 ， 第 二 个 问题 也 解决 了 。 

这 就 是 所 谓 的 MSI 机 制 ， 设 备 采用 存储 器 写 的 访 
存 方式 将 一 个 消息 (暗号 /中 断 标识 ) 写 入 到 APIC 的 
寄存 器 中 ， 从 而 达到 通知 APIC 中 断 到 来 的 目的 。 所 
以 ， 基 本 思路 已 经 清晰 了 : 每 个 设备 ID 的 配置 空间 
寄存 器 中 增设 一 个 新 寄存 器 ， 其 用 于 声明 自己 申请 多 
少 个 中 断 标 识 ， 以 及 用 于 盛 放 分 配 的 APIC 的 寄存 器 
指针 、 分 配 的 中 断 标识 。 这 个 位 于 设备 配置 空间 中 
的 用 于 存放 上 述 信息 的 寄存 器 被 称 为 MSI Capability 
Register。 但 如 果 仔 细 观 察 图 7-113 所 示 的 设备 配置 空 
间 寄 存 器 分 布 图 ， 其 中 并 没有 这 个 寄存 器 。 但 是 你 会 
发 现 一 个 叫 作 Capability Pointer 的 寄存 器 ， 这 个 寄存 器 
正如 其 名 ， 它 是 本 设备 的 “技能 树 ” 指 针 ， 其 值 指向 
的 是 本 设备 所 有 “技能 ”的 描述 结构 所 在 的 配置 空间 
存储 器 中 的 位 置 。 图 7-113 所 示 的 这 堆 寄存 器 只 是 每 个 
了 PCIPCIE 设 备 锁 必 须 持 有 并 展示 的 标准 配置 空间 ， 一 
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共 只 有 64 字 节 大 小 。 而 对 于 一 些 功能 强悍 的 设备 ， 其 
有 更 多 技能 以 及 参数 可 供 展 示 ，64 字 节 根 本 不 够 用 。 
所 以 PCIPCIE 规 范 规定 ， 凡 是 想 展示 更 多 技能 的 ， 则 
可 以 用 标准 配置 空间 中 的 Capability Pointer 寄 存 器 盛 放 
指向 更 多 技能 描述 结构 的 指针 ， 以 指向 一 个 技能 树 结 
构 ， 技 能 树 结构 最 大 可 以 支持 容纳 192 字 节 的 信息 。 
然而 ， 即 便 如 此 还 是 很 多 参数 没有 空间 放置 。 到 了 
PCIE 时 代 ，PCIE 规 范 又 开辟 出 一 大 段 空 间 称 为 扩展 
配置 空间 ， 来 盛 放 更 多 参数 和 一 些 PCIE 特 有 的 技能 描 
述 结构 ， 使 得 整个 配置 空间 (包含 标准 部 分 、 技 能 树 
部 分 、 扩 展 部 分 ) 最 大 到 4KB 容 量 ， 如 图 7-115 所 示 。 

其 实 ， 我 们 前 文中 提 到 过 的 Max_Payload_Size 参 
数 、Max_Request_Size 等 参数 ， 都 被 放 在 了 扩展 配置 
空间 中 ， 其 他 参数 ， 比 如 虚拟 通道 的 支持 情况 和 参 
数 、 电 源 管理 方面 的 参数 等 ， 也 都 被 放 到 了 扩展 配置 
空间 里 。 大 部 分 技能 并 不 是 强制 要 求 支持 的 ， 但 是 
规范 规定 PCIE 设 备 必 须 实现 PCI Express Capability、 
Power Management Capability М &MSI/MSI-X 
Capability 这 三 个 特殊 技能 。 

下 面 我 们 就 来 看 看 这 个 技能 树 结构 真 的 是 一 棵 树 
么 ? 差不多 。 如 图 7-116 所 示 ， 特 殊 技 能 的 组 织 形式 是 
以 一 个 链表 的 形式 组 织 的 ， 形 成 一 个 技能 树 ， 从 根 指 
针 顺 着 往 下 指 。 设 备 并 不 要 求 支持 所 有 的 技能 ， 可 以 
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选择 性 支持 ， 支 持 哪个 技能 ， 就 在 技能 树 中 放置 对 应 
的 技能 描述 项 。 描 述 项 中 含有 项 目 ID， 项 目 ID 并 不 是 
序号 的 意思 。 此 ID 全 局 唯一 ， 比 如 降 龙 十 八 掌 技能 的 
了 为 8， 乾 坤 大 挪移 的 ID 为 9， 如 果 该 设备 的 技能 根 指 
针 指 向 的 第 一 个 技能 是 乾坤 大 挪移 ， 则 第 一 个 描述 项 
的 ID 就 是 9， 而 不 是 1〈 第 一 个 ) 。 这 样 ， 设 备 管理 程 
序 才能 根据 ID 判断 该 设备 支持 的 技能 。 由 于 每 个 描述 
项 的 大 小 不 一 ， 再 加 上 设备 指 不 定 支持 哪个 、 支 持 多 
少 个 技能 项 ， 所 以 无 法 用 固定 长 度 的 表格 来 存放 这 些 
技能 项 ， 而 是 每 个 技能 项 中 利用 一 个 指针 指向 下 一 个 
技能 项 所 在 的 配置 空间 中 的 偏 移 量 ， 以 便 让 设备 管理 
程序 顺藤摸瓜 。 最 后 一 个 技能 项 的 指针 为 全 0， 以 提 
示 这 是 最 后 一 个 技能 了 。 

当然 ， 你 一 定 迫 不 及 待 想 知道 ， 技 能 项 里 都 是 
些 什么 东西 ? ЖИ Е 5 ВЕ — МАН 
技能 ， 就 是 该 技能 树 中 的 一 项 ， 其 项 ID 为 05h (16 进 
制 的 05) 。 至 于 其 位 于 每 个 设备 的 技能 树 中 的 第 几 
项 ， 这 个 并 不 一 定 是 固定 的 ， 如 图 7-117 所 示 。 值 得 
一 提 的 是 ， 虽 然 项 目 ID 都 为 03h， 但 是 该 技能 却 有 4 
个 变种 。 

其 中 左上 角 的 变种 为 原始 种 ， 其 工作 在 32 位 的 
地 址 空间 ， 但 是 目前 的 CPU 都 已 经 是 64 位 了 ， 所 以 该 
变种 目前 已 经 没有 设备 在 使 用 了 。 左 边 第 二 个 变种 是 
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图 7-116 扩展 配置 空间 中 的 Capability 技 能 树 结构 


64 位 地 址 空间 版 本 ， 其 中 的 Next Capability Pointer 和 
Capability ID 上 文中 已 经 介绍 过 了 ， 这 是 用 于 技能 树 
连接 用 的 ， 这 里 不 再 多 说 。 

关键 看 其 中 的 Message Address 字 段 ， 其 用 8 字 节 
组 成 了 可 容纳 64 位 的 存储 器 ， 其 含义 是 “消息 要 发 送 
到 的 目标 地 址 ”。 它 存放 的 就 是 APIC 控 制 器 的 寄存 器 
地 址 ， 会 由 Host 端 设备 管理 程序 负责 写 入 。Message 
Data 字 段 长 32 位 ， 它 的 高 16 位 恒 为 0， 低 16 位 存放 的 
就 是 上 文中 提 到 过 的 暗号 /中 断 标识 ， 也 由 设备 管理 
程序 负责 分 配 和 写 入 ， 设 备 管理 程序 会 负责 每 个 中 
断 标识 全 局 唯一 。 嗯 ? 不 是 说 MSI 方 式 可 以 支持 单 设 
备 可 以 拥有 多 个 中 断 标识 么 ? 这 里 为 什么 只 有 一 个 
Message Data 寄 存 器 ? 下 文 会 解释 。 

再 来 看 看 Message Control 寄 存 器 。 顾 名 思 义 ， 
该 寄存 器 存放 的 是 该 MSI 技 能 项 的 参数 ， 如 图 7-117 
左下 角 所 示 ，MSI Enable 位 为 1 标识 允许 该 设备 使 
用 MSI 中 断 方式 ， 如 果 程序 写 入 0 到 该 位 ， 那 么 该 设 
备 不 能 使 用 MSI 方 式 ， 而 只 能 使 用 其 他 方式 〈 或 者 
是 传统 方式 或 者 是 升级 版 的 MSI-X 方 式 ) 。Multiple 
Message Capable 字 段 为 3 位 长 ， 用 于 设备 声明 自己 
需要 多 少 个 中 断 标识 ， 其 存放 的 是 对 应 的 数值 。 
Multiple Message Enable 字 段 长 3 位 ， 该 字段 需要 由 
设备 管理 程序 来 写 入 ， 其 含义 是 “设备 管理 程序 
最 终 分 配 了 多 少 中 断 标 识 ”，3 位 最 多 表示 到 数值 
111， 但 是 规范 规定 110 和 111 保 留 不 用 ， 所 以 最 高 到 
101， 即 十 进 制 的 32， 也 就 是 说 设备 最 大 允许 获得 
32 个 中 断 标识 。Multiple Message Capable 字 段 也 是 
3 位 长 ， 同 样 最 大 可 申请 的 数量 也 被 限制 在 32。 也 


就 是 说 Multiple Message Capable 字 段 用 于 设备 一 厢 
情愿 申请 对 应 数量 的 中 断 标 识 ， 而 Multiple Message 
Enable 字 段 则 是 设备 管理 器 最 终 批准 的 中 断 标识 的 
数量 。 由 于 Host 端 的 各 种 资源 是 有 限 的， 比如 中 断 
向 量 表 有 限 ， 并 不 是 设备 要 多 少 Host 就 必须 得 给 多 
少 。 那 么 ， 如 果 Host 少 给 了 怎么 办 ? 少 给 了 也 得 
1. 7 难道 少 给 了 不 会 影响 设备 工作 么 ? 见 下 文 
提示 框 内 的 解释 。64-bit Address Capable 标 识 该 寄存 
器 是 不 是 64 位 地 址 模式 ， 如 果 该 位 为 0 则 表示 为 32 位 
模式 ， 这 也 是 为 何 MSI Capable 寄 存 器 会 产生 32 位 和 
64 位 两 个 变种 的 原因 。Per-Vector Masking Capable 
位 长 1 位 ， 如 果 该 位 为 1， 则 MSI Capability 技 能 项 寄 
存 器 会 额外 附带 两 个 新 字段 Mask Виз Register 和 
Pending Bits Register。 这 也 是 产生 另外 两 个 变种 的 
原因 。 这 两 个 额外 字段 的 作用 下 文 再 介绍 。 

下 面 我 们 先 来 解释 如 何 只 用 一 个 Message Data 
字段 盛 放 多 个 中 断 向 量 。 其 实 ， 设 备 管理 程序 分 
配 好 对 应 数量 的 中 断 标识 之 后 ， 写 入 Message Data 
寄存 器 低 16 位 的 只 是 一 个 基 序 号 ， 比 如 写 入 的 是 
0110001010110100， 则 表示 Host 端 分 配 了 4 个 中 断 标 
识 ， 分 别 为 0110001010110100，0110001010110101， 
0110001010110110 以 及 0110001010110111。 同 理 ， 如 
果 Host 端 写 入 的 是 0110001010110000， 则 表示 分 配 
了 8 个 中 断 标识 。 至 于 设备 欲 发 出 中 断 时 选用 哪个 标 
识 ， 这 取决 于 设备 自己 。 但 是 要 注意 ， 每 次 启动 机 
器 ，Host 端 写 入 的 中 断 向 量 是 无 规律 的 ， 每 次 可 能 都 
不 同 ， 比 如 某 次 写 入 的 是 0110001010110100， 而 下 一 
次 可 能 写 入 的 则 是 1100101111010100。 
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提示 * 

之 前 每 个 设备 只 能 有 一 个 中 断 标识 ， 所 以 ， 设 
备 ID、Vendor ID/Revision ID 、 中 断 向 量 、 中 断 服 
务 程序 是 一 一 对 应 的 。 而 现在 ， 同 一 个 设备 ID 的 
中 断 向 量 却 有 多 个 ， 那 就 得 为 每 个 中 断 向 量 提 供 
对 应 的 中 断 服务 程序 。 这 就 产生 一 个 问题 ， 到 底 
哪个 中 断 服务 程序 对 应 着 哪个 中 断 向 量 呢 ? 要 知 
道 ， 中 断 向 量 可 能 每 次 开机 后 都 不 同 ， 并 不 是 固定 
的 ， 这 样 就 没有 一 个 对 应 规则 了 。 其 实 仔细 想起， 
规则 还 是 有 的 。 也 就 是 纯粹 按照 中 断 标识 的 序号 
来 对 应 中 断 服务 程序 ， 比 如 假设 中 断 向 量 被 分 配 
为 0110001010110100， 那 么 设备 的 固件 可 以 这 样 规 
Ж: 当 遇 到 事件 1 ( 比如 一 个 IO 完成 ) 时 发 出 基 序 
号 开始 的 第 一 个 序号 0110001010110100 号 中 断 ， 当 
遇 到 事件 2 ( 比如 后 端 通道 接口 故障 ) 则 发 出 第 二 
个 序号 也 就 是 0110001010110101 号 中 断 ， 这 样 ， 不 
管 Host 端 实际 分 配 的 基 序号 是 多 少 ， 凡 是 事件 1 发 
生 则 发 送 基 序 号 +1 号 中 断 ， 依 此 类 推 。 显 然 ，Host 
端的 设备 驱动 也 需要 按照 相同 的 规则 来 挂 接 对 应 的 
中 断 服务 程序 到 对 应 的 中 断 向 量 上 ， 即 设备 驱动 程 
序 可 以 从 MSI Capable 寄 存 器 中 读 出 被 分 配 好 的 基 序 
号 ， 然 后 按照 对 应 的 顺序 ， 将 对 应 的 中 断 服 务 程序 
的 入 口 指针 注册 到 中 断 向 量 表 中 对 应 的 中 断 向 量 条 
目 中 。 


如 图 7-118 所 示 ， 当 设备 决定 发 出 某 个 中 断 向 量 
号 的 中 断 时 ， 其 利用 MSI Capability 寄 存 器 中 的 信息 ， 
将 Message Address 字 段 直接 复制 到 待 发 送 的 存储 器 写 
TLP 的 目标 地 址 字段 ， 然 后 将 Message Data 字 段 的 中 
的 基 序号 复制 出 来 ， 将 对 应 的 位 改 为 对 应 的 中 断 向 量 
号 ， 并 填 入 到 TLP 的 Payload 中 。 这 样 ， 该 中 断 也 就 被 
写 入 到 了 目标 APIC， 从 而 引发 对 应 的 CPU 处 理 中 断 。 
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再 来 看 看 Mask Bits Register 的 作用 。 该 寄存 器 长 
度 32 位 ， 而 每 个 设备 可 获得 的 最 大 中 断 标识 数量 也 是 
32， 这 样 刚好 每 一 个 位 对 应 一 个 中 断 标识 。 如 果 该 寄 
存 器 中 的 某 个 位 被 Host 程 序 置 为 1， 则 表示 Host 程 序 打 
算 屏 项 掉 对 应 的 这 个 中 断 信号 ， 也 就 是 说 设备 不 能 够 
发 出 对 应 的 中 断 标识 ， 这 相当 于 关 掉 了 该 中 断 。 至 于 
Host 端 程序 《比如 驱动 程序 或 者 中 断 服务 程序 〉 为 何 
要 屏蔽 掉 对 应 的 中 断 ， 取 决 于 具体 设计 考虑 ，MSI 体 
系 只 是 提供 了 这 个 功能 。 不 过 ， 原 因 可 能 是 Host 端 的 
程序 此 时 不 希望 再 次 被 打 断 。 

如 果 某 个 中 断 标识 被 屏蔽 了 ， 这 并 不 表示 设 
备 就 不 能 说 话 了 ， 但 是 由 于 嘴 被 封 住 了 ， 那 么 只 好 
将 要 发 送 但 是 临时 发 不 出 去 的 中 断 号 对 应 的 序号 
写 入 到 Pending Bits Register 中 。 比 如 ， 设 备 要 发 送 
0110001010110101 号 中 断 向 量 给 APIC 寄 存 器 ， 但 


Header 


是 由 于 此 时 Mask Bits Register 为 00000000 00100000 
00000000 00000000， 也 就 是 第 22 个 位 被 置 了 1， 而 
要 发 送 的 中 断 号 刚好 是 第 22 个 中 断 号 (-#w10101= 
+8821) ， 则 该 中 断 不 能 发 送出 去 ， 而 要 转 为 临 
时 暂 挂 (Pending 就 是 临时 暂 挂 的 意思 ) 在 Pending 
Bits Register 中 的 第 22 个 位 上 。 所 以 此 时 设备 需要 
将 Pending Виз Register 更 改 为 00000000 00100000 
00000000 00000000， 如 果 还 有 其 他 中 断 号 也 被 封 
闭 了 但 是 要 发 送 ， 那 就 继续 将 Pending Bits Register 
中 的 对 应 位 置 1。 当 对 应 的 位 被 Host 端 程序 从 Mask 
Bits Register 中 解除 封闭 后 ， 设 备 便 根据 Pending Bits 
Register 暂 挂 的 记录 ， 依 次 发 出 对 应 的 中 断 信号 ， 中 
断 发 出 后 ， 暂 挂 解除 。 

综 上 所 述 ，MSI 方 式 需要 设备 〈 硬 件 + 固件 ) 、 
驱动 程序 、 设 备 管理 程序 、CPU 同 时 来 支持 才 可 以 。 
怎么 样 ， 用 上 MSI 中 断 模式 之 后 ， 是 不 是 感觉 生产 
力 被 释放 了 ? 不 过 ，MSI 还 是 有 较 大 的 限制 。 最 大 
的 限制 就 是 ， 一 个 设备 只 能 将 中 断 发 送 给 一 个 CPU/ 
核心 的 APIC， 也 就 是 只 能 中 断 一 个 CPU， 因 为 MSI 
Capability 寄 存 器 中 只 有 一 个 用 于 存放 APIC 寄 存 器 地 
址 的 寄存 器 (Message Address 寄 存 器 ) 。 设 备 虽然 可 
以 发 送 不 同 的 中 断 向 量 ， 点 出 不 同 的 中 断 服务 程序 处 
理 中 断 ， 但 是 它们 都 发 生 在 一 个 CPU/ 核 心 上 ， 对 于 那 
些 高 吞吐 量 的 IO 设备 来 讲 ， 如 果 只 有 一 个 CPU 处 理 
中 断 ， 会 产生 瓶颈 。 于 是 人 们 又 设计 了 MSI 的 升级 版 
MSI-X (Extended MSI) 来 解决 上 述 问题 。 

很 显然 ， 要 想 解决 上 述 问题 ， 就 得 设置 多 个 用 于 存 
放 APIC 地 址 的 寄存 器 ， 这 样 设备 管理 程序 可 以 写 入 多 个 
不 同 CPU 上 的 APIC 的 寄存 器 地 址 给 设备 。 没 错 ， 设 计 师 
们 也 是 这 样 想 的 。 设 计 师 们 决定 ， 每 个 设备 ID 最 大 可 以 
申请 2048 个 中 断 向 量 ! 并 且 ， 这 2048 个 向 量 并 不 一 定 只 
能 往 一 个 CPU 发 送 ， 系 统 最 大 可 以 支持 每 个 向 量 各 自 往 
一 个 不 同 的 CPU/ 核 心 上 发 送 ， 这 样 ， 最 大 支持 2048 个 不 
同 的 APIC 寄 存 器 地 址 被 记录 在 设备 侧 ， 当 然 也 可 以 多 个 
中 断 向 量 都 往 同一 个 CPU 上 发 。 看 来 ， 这 2048 条 记录 是 
没 法 在 配置 空间 甚至 扩展 配置 空间 中 放 得 开 了 ， 它 们 得 
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另 找 地 方 放置 。 放 在 哪 好 呢 ? 当然 我 们 一 贯 使 用 的 路 数 
是 ， 找 个 BAR 指 向 的 空间 来 存放 。 

如 图 7-119 所 示 ， 干 脆 把 这 个 最 大 2048 行 记录 的 
表格 存储 在 设备 某 个 BAR 指 向 的 内 部 存储 器 空间 吧 。 
那么 ， 放 在 哪个 BAR 的 哪个 偏 移 量 处 ? 放 哪 都 行 ， 但 
是 必须 将 位 置 记 下 来 ， 包 括 BAR 号 、BAR 内 偏 移 量 。 
所 以 ， 需 要 生成 一 个 新 的 叫 作 MSI-X Capability 技 能 
项 ， 技 能 ID 为 11h， 区 别 于 MSI 的 05h。 在 其 Message 
Control 字 段 中 记录 的 内 容 与 MSI 方 式 下 有 较 大 的 不 
同 。 图 中 左 侧 所 示 的 Table BIR 字 段 和 MSI-X Table 
Offset 字 段 所 记录 的 内 容 就 是 用 于 表示 上 述 的 “哪个 
BAR” 和 “BAR 内 的 哪里 ”。Function Mask 位 如 果 
被 置 1， 则 该 设备 所 有 的 中 断 向 量 会 被 在 全 局 范围 内 
屏蔽 掉 ， 这 会 导致 该 设备 发 不 出 任何 向 量 的 中 断 ， 此 
位 是 一 个 全 局 控制 位 。 如 果 要 屏蔽 具体 的 某 个 中 断 向 
Æ, MFX. Table Size 字 段 记 录 的 是 中 断 向 量 映 射 表 
的 尺寸 (最 大 值 2048) ， 也 就 是 有 多 少 条 目 。 

如 图 7-120 左 侧 所 示 为 MSI-X Table 的 结构 ， 最 大 
2048 行 ， 每 一 行 上 有 3 大 字段 ， 分 别 为 记录 目标 APIC 
地 址 的 字段 〈 划 分 为 高 32 位 和 低 32 位 ) 、 对 应 的 中 断 
向 量 字段 (Message Data) 、 记 录 该 向 量 是 否 被 屏蔽 
的 字段 (Vector Control 字 段 ， 只 使 用 该 字段 的 低 1 位 
来 控制 该 行 中 断 向 量 是 否 被 屏蔽 ， 其 他 位 不 使 用 ) 。 
值得 一 提 的 是 ，Message Data 字 段 所 保存 的 中 断 向 量 
不 再 是 最 后 几 位 为 0 的 基础 序号 ， 而 是 每 个 位 都 有 效 
的 最 终 序号 ， 而 且 这 些 序号 可 以 是 任意 跳跃 不 连续 
的 。 如 果 一 个 设备 申请 了 多 个 中 断 向 量 ， 那 么 它 就 
需要 占用 该 表 中 多 个 条 目 ， 而 不 是 像 MSI 那 样 在 单个 
Message Data 字 段 中 记录 一 个 基础 序号 + 多 个 0 来 表示 
多 个 连续 的 中 断 号 。 所 以 MSI-X 方 式 是 比较 浪费 设备 
一 侧 的 存储 器 资源 的 ， 不 过 设备 一 侧 可 以 选择 支持 任 
意 大 小 的 MSIX 表 。 

另外 ，Pending Bit 也 是 少不了 的 《上 文中 刚刚 介 
绍 过 它 的 作用 ， 没 忘 了 吧 ) 。 由 于 系统 最 大 有 2048 
个 中 断 向 量 ， 所 以 需要 准备 最 大 2048 位 的 Pending Виз 
Register， 或 者 叫 Pending Виз Апау. Pending Bit Апауй 7E 
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图 7-119 MSI-X Capability 寄 存 器 的 结构 
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图 7-120 MSI-X Table 以 及 Pending Bit Array 


的 位 置 也 由 对 应 的 PBA BR 字段 和 PBA Offset 字 段 记录 。 

这 样 ， 设 备 管理 程序 就 可 以 将 一 个 设备 上 的 多 个 
中 断 向 量 均衡 到 多 个 CPU 处 理 了 ， 这 消除 了 瓶颈 。 另 
外 ， 设 备 驱 动 程序 依然 需要 通过 某 些 固定 规则 来 将 对 
应 的 中 断 服务 程序 挂 接 到 对 应 的 中 断 向 量 上 ， 这 就 是 
设备 和 驱动 程序 具体 设计 时 考量 的 事情 了 。 

MSI Capability 寄 存 器 中 的 Message Data Capable 
字段 中 给 出 了 该 设备 所 需 的 中 断 向 量 的 数量 。 对 于 使 
用 MSI-X 方 式 的 设备 ，MSI-X 寄 存 器 中 的 Table Size 字 
段 用 来 标明 该 设备 所 需 的 中 断 向 量 个 数 。 那 么 ， 设 备 
管理 程序 可 以 直接 给 设备 分 配对 应 数量 的 中 断 向 量 。 
然而 ， 为 设备 分 配 中 断 向 量 这 件 事 ， 并 不 是 由 设备 管 
理 程序 主动 去 做 的 ， 虽 然 它 可 以 去 做 。 实 际 上 ， 多 数 
实现 都 是 在 设备 驱动 程序 加 载 起 来 之 后 ， 由 驱动 程序 
获取 这 些 寄 存 器 的 信息 ， 然 后 调用 设备 管理 程序 提供 
的 专门 函数 来 分 配对 应 的 中 断 向 量 的 。 驱 动 程序 加 载 
之 后 ， 可 以 与 设备 进行 更 深层 次 的 沟通 。 在 获取 一 些 
更 实时 的 信息 之 后 ， 再 决定 分 配 多 少 个 中 断 向 量 , 或 
者 用 什么 细节 参数 〈 比 如 分 配 到 多 少 个 CPU 上 ， 如 何 
均衡 ， 等 等 ) 去 分 配 ， 这 样 更 加 合适 。 设 备 声明 的 数 
量 并 不 一 定 是 最 终 分 配 的 数量 。 所 以 ， 设 备 管理 程序 
自身 并 不 知道 这 些 深层 次 考量 ， 也 就 不 适合 擅自 给 人 
家 分 配 中 断 向 量 。 那 么 ， 如 果 一 个 设备 连 中 断 都 还 没 
被 设置 好 ， 此 时 设备 驱动 程序 加 载 之 后 能 与 设备 进行 
沟通 么 ? 没有 问题 ， 驱 动 程序 与 设备 进行 沟通 ， 不 一 
定 非得 在 中 断 运行 正常 后 。 只 要 设备 的 配置 空间 寄存 
器 可 以 访问 ， 对 应 的 BAR 空 间 的 物理 地 址 被 分 配 好 ， 
此 时 就 可 以 加 载 驱动 程序 了 。 一 些 深层 次 的 配置 信息 
要 么 包含 在 标准 /扩展 配置 空间 中 ， 用 配置 访问 TLP 来 
访问 ， 或 者 包含 在 BAR 空 间 中 ， 用 存储 器 读 写 TLP 来 
访问 。 当 然 ， 只 有 驱动 程序 自己 才 知道 BAR 空 间 里 都 
是 些 什么 参数 /数据 。 

截至 当前 ， 几 乎 所 有 的 PCIE 设 备 都 采用 了 MSI-X 
中 断 方式 ， 有 些 为 了 兼容 性 考虑 ， 也 一 并 支持 传统 
INTx 信 号 模式 和 MSI 模 式 。PCIE 设 备至 少 要 支持 MSI 
模式 ， 传 统 和 MSI-X 作 为 可 选 支持 。 驱 动 程序 通过 配 
置 空间 中 对 应 的 寄存 器 中 的 使 能 控制 位 来 控制 设备 运 
行 在 何 种 中 断 模式 下 。 


7.4.1.14 ” PCIE 体系 中 的 驱动 程序 层次 


现在 来 回顾 一 下 ， 为 了 让 PCIE 网 络 、PCIE 设 备 
工作 起 来 ，Host 端 都 需要 运行 一 些 什 么 样 的 程序 。 系 


统 加 电 之 后 ，PCIE 网 络 中 的 各 个 控制 器 ， 包 括 PCIE 
总 控制 器 和 各 个 PCIE 设 备 主 控制 器 前 端的 PCIE 控 制 
器 ， 各 自 开 始 初始 化 。 其 中 ， 设 备 端 主 控 中 的 嵌入 
式 CPU 会 负责 将 配置 空间 中 的 全 部 信息 初始 化 好 ， 从 
ROM 中 读 出 写 入 到 配置 空间 寄存 器 堆 中 ， 等 待 着 Host 
端 程序 的 访问 和 配置 。 

Host 端 首先 要 存在 一 个 这 样 的 程序 ， 其 对 PCIE 
网 络 进行 枚 举 〈 枚 举 的 过 程 见 前 文 ) ， 然 后 在 主 存 中 
生成 一 个 数据 结构 来 记录 当前 PCIE 网 络 中 所 有 的 设 
备 的 基本 信息 。 然 后 ， 对 于 每 一 个 识别 到 的 设备 ， 根 
据 其 BAR 申 请 的 地 址 容量 分 配对 应 的 物理 地 址 ， 然 
后 将 物理 基地 址 指针 写 入 对 应 的 BAR。 这 个 负责 枚 举 
PCIE 网 络 以 及 分 配对 应 物理 地 址 的 程序 ， 被 称 为 PCIE 
Bus Driver， 简 称 Bus Driver (总 线 驱 动 ) 。 这 里 Bus 
Driver 可 不 是 开 公交 车 的 司机 ， 而 是 开 PCIE 网 络 的 司 
BL. Bus Driver 对 应 的 实体 其 实 就 是 一 堆 函 数 ， 我 们 
在 第 5 章 中 介绍 过 ， 函 数 只 是 被 动 等 待 着 被 人 调用 的 
一 堆 代 码 ， 而 真正 主动 去 干 活 的 是 进程 /线程 ， 其 从 某 
个 函数 入 口 进入 执行 ， 然 后 将 一 堆 待 执行 的 函数 串 起 
来 执行 。 而 线程 本 身 其 实 是 个 虚拟 的 东西 ， 真 正 把 所 
有 函数 串 起 来 执行 的 物理 实体 是 CPU 内 部 取 指令 单元 
的 PC 指针 寄存 器 ， 因 为 归根 结 底 是 它 的 数值 自 增 导 致 
的 代码 不 断 被 载 入 执行 ， 当 然 ， 程 序 可 以 控制 让 其 数 
值 发 生 跳 转 。 那 么 ， 线 程 的 物理 实体 ， 其 实 就 是 CPU 
内 部 的 各 种 关键 寄存 器 的 值 ， 也 就 是 当前 的 执行 状 
态 ， 或 者 说 执行 现场 。 只 要 这 些 东 西 从 CPU 对 应 寄存 
器 中 拿 下 来 ， 那 么 这 个 线程 就 暂停 执行 了 ， 如 果 这 些 
寄存 器 再 安 上 去 ， 那 该 线程 就 继续 执行 了 ， 多 线程 调 
度 也 是 这 么 干 的 。 

那么 ，Bus Driver 这 一 堆 函 数 ， 是 在 哪个 线程 中 
被 执行 的 呢 ? 看 看 现实 中 的 实例 ， 比 如 在 Linux 操 作 
系统 下 ，kernel_init 线 程 负责 整个 系统 的 初始 化 配置 
工作 ， 其 中 有 一 步 就 是 对 所 有 IO 设备 进行 初始 化 枚 
举 和 配置 ， 包 括 对 PCIE 设 备 枚 举 和 配置 ， 以 及 对 USB 
网 络 和 设备 进行 枚 举 和 配置 (下 文中 将 介绍 USB 网 
络 ) 。 其 实 ， 你 还 可 以 继续 问 ，kernel init 线 程 又 是 
怎么 被 创建 出 来 的 呢 ? kernel_init 线 程 也 是 由 其 他 线 
程 创 建 出 来 的 。 如 果 要 追踪 到 线程 的 源头 的 话 ， 第 一 
个 线程 其 实 就 是 每 个 CPU 加 电 之 后 ，PC 寄 存 器 中 的 默 
认 地 址 所 指向 的 代码 ， 从 这 里 开始 往 后 的 执行 ， 也 算 
一 条 执行 线 ， 也 是 一 个 线程 ， 只 不 过 此 时 并 没有 其 他 
的 线程 存在 。 你 可 能 不 知道 的 是 ， 这 个 最 初始 的 线程 


(也 就 是 BIOS 代 码 ) ， 便 会 对 PCIE 网 络 进行 枚 举 和 
物理 地 址 分 配 的 动作 了 ， 只 是 ， 在 Linux 操 作 系统 的 
代码 被 运行 之 后 ，Linux 操 作 系统 可 能 还 会 再 次 枚 举 
PCIE 网 络 和 分 配 物理 地 址 〈 可 以 通过 一 些 参数 来 控制 
Linux 是 否 沿用 由 BIOS 初 始 化 好 的 PCIE 资 源 ， 还 是 抛 
弃 之 自己 重头 做 一 遍 ) 。 

kernel init 进 程 中 有 一 步 是 调用 do_basic_setup0， 
继而 调用 do_initeallsO 对 所 有 的 IO 设备 进行 初始 
化 操作 。 整 个 过 程 会 调用 诸如 pci_arch_initD)、pci_ 
direct_probe()、 рсі 5101 таи), pci зубзуз ти, 
pci Јевасу init()、 pcibios scan root(). pci bus ада | 
devices() 等 函数 ， 这 些 函 数 错综复杂 。 看 似 枚 举 PCIE 
网 络 是 比较 简单 的 事情 ， 其 实 追究 细节 来 说 ， 要 做 的 
事情 太 多 ， 这 些 函 数 具体 所 做 的 工作 ， 这 里 就 不 多 介 
绍 了 。 这 些 函 数 共同 组 成 了 “Bus Driver” 实 体 。 

至 此 ， 所 有 PCIE 设 备 均 已 发 现 ， 其 BAR 也 被 分 
配 了 物理 地 址 ， 设 备 的 信息 被 记录 在 主 存 中 对 应 的 
PCIE 设 备 数据 结构 中 。 现 在 该 是 加 载 PCIE 设 备 驱动 
程序 的 时 候 了 。 如 果 说 Bus Driver 是 一 个 PCIE 交 通 规 
划 维 护 者 的 话 ， 那 么 利用 PCIE 网 络 传送 数据 的 各 个 
PCIE 设 备 就 是 这 个 交通 体系 中 的 车 辆 ， 它 们 虽然 遵循 
着 同样 的 交通 规则 ， 但 是 它们 的 驾驶 方式 却 是 不 一 样 
的 。 虽 然 每 辆 车 基本 上 都 有 大 灯 尾 灯 雾 灯 、 反 光 镜 、 
方向 盘 、 刹 车 /油门 、 挂 挡 操纵 杆 ， 这 就 像 每 个 PCIE 
设备 都 有 各 自 标 准 的 配置 寄存 器 ， 基 本 上 都 利用 队列 
指针 方式 从 主 存 收发 数据 ， 但 是 其 细节 还 是 有 很 大 不 
同 。 比 如 每 个 设备 用 于 存放 主 存 中 队列 指针 的 寄存 器 
在 其 BAR 空 间 内 的 偏 移 量 各 不 相同 ， 不 同 设备 的 各 种 
状态 寄存 器 的 位 置 也 不 同 ， 寄 存 器 内 部 的 值 所 表示 的 
含义 各 不 相同 。 这 些 差异 化 的 操控 ， 只 能 由 该 车 的 司 
机 来 负责 操控 ， 也 就 是 每 个 PCIE 设 备 的 PCIE Device 
Driver， 简 称 Device Driver (WARZI) 来 负责 。 

设备 驱动 需要 由 开发 该 设备 的 厂商 一 并 提供 ， 
设备 驱动 其 实 也 是 一 个 可 执行 文件 ， 需 要 提前 执行 一 
下 ， 注 册 对 应 的 函数 入 口 到 对 应 的 Vendor ID/Revision 
ID《〈 这 个 对 应 关系 会 被 保存 在 配置 文件 中 ， 比 如 
Windows 操 作 系统 会 将 其 保存 在 注册 表 这 个 大 配置 文 
件 中 ， 或 者 其 他 一 些 数 据 结 构 中 ， 这 取决 于 不 同系 统 
的 设计 差异 ) 。 这 个 注册 过 程 ， 是 由 驱动 程序 可 执行 
文件 中 的 pci_register_driver0 函 数 完 成 的 。 该 函数 除了 会 
将 自己 所 能 够 驱动 的 RID/VID 设 备 号 注册 到 配置 文件 中 
之 外 ， 还 会 将 一 个 名 为 xxxx_probe〔x 为 任意 字符 和 数 
量 ， 不 成 文 规定 ， 并 不 必须 为 此 名 ) 的 函数 入 口 指针 
注册 进去 ， 而 所 有 针对 该 设备 的 操作 、 控 制 、 初 始 化 
等 步骤 ， 都 是 在 这 个 xxxx_probeO 函 数 中 实现 的 ， 这 
个 函数 其 实 才 是 设备 驱动 真正 意义 上 的 主 程序 函数 。 

这 样 ， 根 据 Bus Driver 枚 举 PCIE 设 备 时 从 其 配置 
空间 中 所 获取 到 的 信息 ， 根 据 Vendor ТО, Revision ID 
等 以 及 配置 文件 中 之 前 注册 的 函数 入 口 指针 ，kernel_ 
init 线 程 就 可 以 按 图 索 驴 ， 找 到 对 应 VIDARID 的 驱动 程 
序 入 口 函 数 地 址 ， 跳 转 执行 xxxx_probe() 函 数 对 设备 
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进行 进一步 的 初始 化 工作 。 

probe 函 数 基本 上 做 了 如 下 的 关键 操作 : 从 Bus 
Driver 准 备 好 的 设备 信息 描述 结构 中 获取 设备 的 配置 
信息 做 各 种 判断 〈 先 看 看 车 是 什么 牌子 什么 型 号 ) ; 
设置 设备 配置 空间 寄存 器 内 的 各 种 基本 的 参数 调整 其 
运行 模式 (上 车 ， 做 各 种 准备 和 检查 工作 ， 检 查 油 量 
表 、 刹 车 、 方 向 盘 ， 调 整 反光 镜 后 视 镜 等 ) ; 调用 
ioremap() 函 数 将 BAR 寄 存 器 内 的 物理 地 址 映射 到 内 核 
的 虚拟 地 址 空间 ， 从 而 后 续 可 以 用 直接 访 存 的 方式 访 
问 这 些 物 理 地 址 ;调用 request_irq() 函 数 为 该 设备 分 配 
对 应 的 中 断 向 量 ， 并 挂 接 对 应 的 中 断 服务 函数 入 口 地 
址 ， 当 然 在 这 之 前 还 需要 设置 设备 的 中 断 方式 ， 设 备 
可 能 支持 多 种 中 断 方式 。 

上 述 的 关键 步骤 做 完 之 后 ， 才 算 完成 一 半 的 初 
始 化 工作 ， 设 备 还 不 能 正式 使 用 。 为 什么 ? 因为 设备 
驱动 程序 还 没有 搞定 Host 端 这 一 侧 的 初始 化 工作 呢 。 
记得 么 ，Host 端 是 通过 队列 与 设备 之 间 进 行 数据 传输 
的 ， 所 以 设备 驱动 还 需要 向 Host 端 设备 管理 程序 申请 
好 对 应 的 内 存 空间 当 作 发 送 /接收 队列 、 缓 冲 区 等 ， 并 
将 对 应 的 队列 指针 写 入 到 设备 一 侧 的 相关 寄存 器 (位 
于 BAR 地 址 空间 中 某 处 ) 。 这 样 就 好 了 吗 ? 似乎 还 是 
缺少 什么 。 也 就 是 上 层 的 程序 如 何 知道 刚才 由 设备 驱 
动 程序 申请 的 缓冲 区 的 位 置 呢 ? 数据 如 何 从 上 层 程序 
接收 过 来 ? 所 以 ， 设 备 驱动 程序 需要 将 一 些 信息 注册 / 
挂 接 / 对 接 到 上 层 程 序 。 

如 果 该 设备 是 一 块 PCIE 接 口 的 以 太 网 卡 ， 那 么 ， 
为 了 接收 上 层 TCP/IP 协 议 栈 下 发 的 封装 好 的 以 太 网 
帧 ， 设 备 驱 动 就 需要 将 一 个 负责 接收 上 层 下 发 数据 的 
函数 入 口 指针 注册 到 TCP/IP 协 议 栈 维护 的 对 应 的 数据 
结构 中 ， 比 如 使 用 io_handler_register0) 函 数 来 注册 ， 
该 函数 也 可 以 将 用 于 接收 从 外 部 网 络 发 来 的 以 太 网 帧 
的 处 理 函 数 的 入 口 指 针 一 并 注册 。 这 样 ，TCP/IP 协 议 
栈 就 知道 了 : 凡是 有 数据 要 发 出 ， 就 调用 负责 发 送 的 
handler 函 数 ， 接 收 数据 则 调用 接收 handler 函 数 ， 或 者 
采用 中 断 触 发 的 接收 过 程 ， 在 卡 中 断 信号 的 触发 下 ， 
调用 中 断 服务 程序 ， 继 而 调用 比如 人 rame_receive() 函 
数 继续 处 理 接收 到 的 以 太 网 帧 ， 进 入 后 续 流 程 。 这 些 
发 送 /接收 handler 函 数 会 负责 操纵 网 卡 的 发 送 、 接 收 队 
列 ， 以 及 操纵 网 卡 的 对 应 寄存 器 通知 网 卡 新 的 数据 已 
到 来 ， 触 发 网 卡 完成 DMA 操 作 拿 到 数据 。 

如 果 网 卡 有 多 个 ， 那 么 每 个 网 卡 可 能 会 被 配置 
一 个 IP 地 址 (一 个 网 卡 也 可 以 配置 为 多 个 IP 地 址 〉， 
这 个 信息 也 会 被 记录 到 由 TCP/IP 协 议 栈 维 护 的 对 应 的 
数据 结构 中 ， 这 样 TCP/IP 协 议 栈 就 知道 了 。 比 如 ， 
卫 1 对 应 网 卡 1， 网 卡 1 的 发 送 handler 函 数 入 口 为 A， 那 
么 ， 凡 是 了 地址 为 IP1 的 以 太 网 帧 ， 全 部 调用 入 口 A 处 
的 函数 进行 发 送 处 理 。 

当 设备 驱动 与 Host 端 上 层 的 协议 栈 程序 注册 挂 接 
好 之 后 ， 设 备 驱动 程序 才能 去 使 能 网 卡 。 比 如 通过 写 
入 某 个 控制 寄存 器 ， 打 开 网 卡 的 物理 层 ， 这 样 网 卡 就 
会 收 到 数据 包 ， 从 而 知道 向 主 存 的 哪些 缓冲 区 位 置 写 
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入 这 些 数据 ， 同 理 上 层 下 发 的 数据 也 就 会 被 发 送 给 网 
卡 了 。 这 也 是 为 何 你 会 发 现 有 些 计 算 机 开机 之 后 需要 
过 一 段 时 间 ， 网 卡 的 接口 指示 灯 才 会 亮 起 的 原因 ， 网 
卡 指示 灯 并 不 是 通 了 电 就 会 立即 亮 的 ， 其 端口 的 打开 
/关闭 最 终 都 是 由 Host 端 驱动 程序 来 控制 的 。 当 然 ， 网 
卡 固件 也 可 以 强制 打开 ， 这 就 完全 是 固件 、 驱 动 程序 
之 间 的 设计 配合 考量 的 问题 了 。 


7.4.1.15 小 结 


大 家 不 妨 回 再 想 一 下 计算 机 IO 的 初衷 。 计 算 机 
IO 是 Input 和 Output 的 简称 。Output 时 ， 程 序 委托 IO 
控制 器 来 做 一 些 事情 ， Input 时 ，IO 控 制 器 想 要 把 信 
息 传递 给 程序 。 当 然 ， 这 种 抽象 的 教科 书 式 描述 ， 让 
我 自己 反感 到 手 胸 顿 足 。 我 们 还 是 用 实际 的 例子 。 两 
台 计 算 机 网 络 聊天 ，A 计 算 机 要 把 “你 好 ”传递 给 B 
计算 机 的 程序 ，B 程 序 接收 并 将 其 显示 。 那 么 ， 首 先 
A 程序 要 做 Output， 将 这 两 个 字 输 出 给 以 太 网 1/O 控 制 
器 。 但 是 如 前 文 所 说 ， 该 信息 需要 先 做 个 包装 ， 加 上 
表示 层 头 ， 比 如 “QQ=122567712 发 出 | 消息 本 体 =[ 你 
好 ] | 消息 编码 = 汉字 ”， 一 个 “你 好 ”被 附加 了 这 么 
多 信息 ， 而 却 又 是 必须 的 ， 这 一 步 必 须 由 A 程序 自己 
来 做 。 然 后 需要 将 这 个 信息 包装 成 TCP 包 ， 加 上 TCP 
头 用 于 传输 保障 控制 ， 包 上 IP 头 用 于 让 IP 路 由 器 找到 
对 方 机 器 ， 最 后 还 得 加 上 以 太 网 MAC 帧 头 用 于 以 太 
网 交换 机 交换 到 对 应 端口 上 。 目 的 MAC 地 址 会 由 A 机 
的 网 络 协议 栈 根据 IP 地 址 和 子 网 掩 码 判 断 ， 是 打 入 网 
关 的 MAC 还 是 对 方 IP 地 址 对 应 的 MAC， 当 然 这 一 步 
之 前 还 得 用 ARP 协 议 寻 找到 目标 IP 或 者 网 关 IP 对 应 的 
MAC 地 址 。 当 然 ， 加 TCP、 人 P、 以 太 网 MAC 头 的 工作 ， 
不 用 A 程序 自己 做 ， 而 是 由 A 程序 调用 A 机 器 上 的 Socket 
API 总 接口 把 要 传递 的 信息 指针 传递 给 后 者 ， 后 者 再 一 
层 层 调用 网 络 协议 栈 提供 的 各 种 接口 来 做 的 。 被 协议 
栈 打包 好 的 以 太 网 帧 ， 依 然 待 在 A 机 的 主 存 里 某 处 。 

怎么 把 这 个 数据 包 发 送 给 网 卡 ? 7.1 节 的 内 容 就 是 
回答 这 个 问题 的 。 比 如 在 网 卡 IO 控制 器 前 端 暴露 一 
定数 量 的 寄存 器 用 于 接收 数据 指针 ， 然 后 进化 成 只 接 
收 队列 指针 ，IO 控 制 器 自己 去 主 存 中 取信 息 ，LIO 任 
务 执行 成 功 后 ， 用 完成 队列 、 中 断 等 方式 通知 程序 做 
后 续 处 理 。 具 体 的 细节 可 以 重新 回顾 这 段 内 容 。 

那么 ， 计 算 机 中 不 仅仅 有 网 卡 ， 还 有 显卡 ， 声 卡 
等 各 种 IO 控制 器 ， 它 们 虽然 在 IO 方式 上 都 基于 上 述 套 
路 ， 但 是 在 物理 拓扑 上 ， 它 们 是 怎么 连接 到 CPU 的 ， 
数据 在 物理 上 是 怎么 传递 给 它们 的 ， 它 们 又 是 怎么 向 
主 存 中 读 写 数据 的 ? 7.4.1 节 就 在 尝试 回答 这 个 问题 ， 
介绍 了 目前 最 常用 的 将 多 个 IO 控制 器 连接 到 CPU 的 网 
络 形态 : PCIE。 深 入 进去 你 会 发 现 ， 要 做 的 事 很 多 。 
比如 ， 怎 么 发 现 网 络 上 的 设备 ， 怎 么 发 现 每 个 设备 有 
多 少 寄存 器 要 暴露 ， 又 怎么 分 配 每 个 设备 寄存 器 的 物 
理 地址 ， 怎 么 分 配 中 断 向 量 ? 其 中 每 个 主题 再 次 深入 进 
去 又 有 更 多 的 细节 。 但 是 正如 目前 为 止 所 使 用 的 介绍 方 


式 ， 只 要 你 知道 了 源头 、 目 的 ， 抓 住 脉 络 ， 就 很 容易 理 
清楚 整个 体系 中 的 各 种 关系 。 如 果 不 了 解 前 因 后 果 ， 只 
想 截取 某 块 内 容 单独 阅读 ， 理 解 就 会 不 深刻 ， 因 为 这 样 
获取 到 的 知识 是 孤立 的 ， 它 并 没有 融入 你 现 有 的 知识 体 
系 中 ， 没 有 联结 ， 也 就 无 法 用 于 迭代 升华 。 

在 理解 了 事务 的 前 因 后 果 和 脉络 之 后 ， 我 们 要 开 
始 比 对 和 思考 ， 来 更 加 深刻 地 挖掘 出 事物 的 本 质 和 关 
联 。 比 如 ，PCIE 和 以 太 网 都 是 网 络 ， 为 什么 我 们 要 有 
两 个 网 络 ， 它 们 的 区 别 和 联系 是 什么 ? 这 个 问题 全 然 
是 教科 书 般 的 道 貌 岸 然 ， 但 是 放 到 这 里 ， 又 的 确 掩 六 
不 住 它 的 深刻 。 

的 确 ， 利 用 PCIE 网 络 也 可 以 传递 任何 信息 ， 比 如 
把 “你 好 ”传递 给 以 太 网 卡 ， 步 骤 就 是 RC 传递 “你 
好 ”所 在 的 主 存 指针 通过 存储 器 写 TLP 发 送 给 网 卡 ， 
网 卡 发 出 以 该 指针 为 目标 地 址 的 存储 器 读 TLP，RC 将 
内 容 读 出 用 Completion TLP 返 回 给 网 卡 ， 网 卡 收 到 后 
将 其 放 入 内 部 缓冲 。 然 后 就 结束 了 ， 这 就 是 利用 PCIE 
网 络 进行 通信 。 咽 ? 难道 网 卡 拿 到 “你 好 ”之 后 不 需 
要 传 到 以 太 网 上 么 ? 可 以 传 也 可 以 不 传 ， 这 完全 取决 
于 系统 设计 者 要 干什么 。 那 么 为 什么 不 直接 用 PCIE 
网 络 连接 两 台 计算 机 来 网 聊 呢 ? 这 是 可 以 的 。7.4.1 节 
中 介绍 的 NTB 其 实 就 是 这 个 目的 ，A 程 序 直接 将 “你 
好 ” 写 入 到 B 程 序 的 主 存 ，B 程 序 将 其 显示 到 显示 器 
上 ， 这 也 是 网 聊 ， 或 者 更 精确 说 法 是 PCIE 网 聊 ， 而 常 
用 的 是 以 太 网 +TCP/IP 网 聊 。 那 么 看 来 以 太 网 也 可 能 
替代 PCIE 了 ? 如 果 单纯 为 了 实现 功能 ， 理 论 上 以 太 网 
完全 可 以 替代 PCIE， 只 不 过 需要 加 上 传输 保障 方面 
的 处 理 ， 比 如 PCIE 在 链 路 层 上 拥有 ACK/NAK 处 理 模 
块 ， 而 以 太 网 是 没有 的 ，TCP 却 有 。 所 以 你 可 以 设计 
一 套 系统 利用 以 太 网 +TCPIP 模 块 ， 当 然 要 把 TCP/IP 模 
块 做 成 硬件 逻辑 电路 ， 然 后 用 这 个 网 路 来 接 入 其 他 的 
IO 控制 器 ， 用 它 来 承载 访 存 事务 、 消 息 事 务 等 。 但 是 
如 果 你 真 的 这 么 去 做 了 ， 你 会 发 现 ， 自 己 重新 做 了 个 
了 PCIE 网 络 出 来 ，PCIE 网 络 里 的 设计 都 避免 不 了 。 有 
多 少 世 间 的 事 ， 都 是 类 似 的 结局 。 

所 以 说 ， 不 同 网 络 的 区 别 ， 就 是 各 自 的 应 用 场景 
不 同 ， 这 决定 了 对 应 网 络 的 设计 思路 不 同 。 以 太 网 作 
为 一 个 通用 的 外 部 网 络 而 存在 ， 而 PCIE 则 作为 专门 
将 多 个 IO 控制 器 接 入 系统 前 端 访 存 网 络 中 的 次 级 、 
局 部 网 络 而 存在 ， 后 者 要 处 理 如 设备 发 现 、 寄 存 器 容 
量 发 现 、 物 理 地 址 分 配 、 中 断 向 量 分 配 等 诸多 事情 。 
但 是 这 些 其 实 都 是 Host 端 程序 以 及 设备 端 PCIE 控 制 器 
和 固件 关心 的 。 如 果 单 纯 从 “网 络 ” 来 看 的 话 ， 那 么 
PCIE 和 以 太 网 交换 机 中 的 Crossbar 交 换 矩 阵 其 实 也 有 
可 能 是 完全 相同 的 ， 其 端口 上 使 用 的 Serdes 也 可 能 根 
本 都 是 同一 个 厂商 设计 的 相同 信号 的 逻辑 器 件 。 两 个 
不 同 的 网 络 ， 在 越 底层 可 能 越 接近 ， 而 在 越 上 层 则 相 
差 越 远 。 这 与 人 和 人 之 间 也 是 一 样 的 ， 论 人 体 器 官 ， 
大 家 差不多 ， 但 是 如 果 论 脑袋 里 的 神经 元 联结 的 够 不 
够 奇 苑 的 话 ， 每 个 人 真 的 很 不 一 样 。 


好 的 ， 至 此 我 们 回答 了 刚才 那个 道 貌 岸 然 的 问 
题 。 上 述 回 答应 该 可 以 给 100 分 ， 当 然 也 有 可 能 是 0 
分 ， 因 为 可 能 不 符合 标准 答案 。 再 来 看 看 7.4 节 的 节 
题 : 高 速 通 用 访 存 式 前 端 VO 网 络 。 

至 此 你 该 知道 所 谓 访 存 式 /O 的 含义 了 。 访 存 ， 是 
为 了 将 “要 干什么 ， 数 据 在 哪 ， 怎 么 干 ， 各 种 参数 ” 
这 个 任务 单 IO Descriptor) 所 在 的 指针 传递 给 IJO 控 
制 器 。 通 过 什么 传递 ? 通过 将 该 指针 写 入 到 IO 控制 器 
的 寄存 器 中 传递 。 这 就 完成 了 一 个 IO? НЕ, 17088 
制 器 拿 到 该 指针 ， 然 后 发 出 针对 该 地 址 的 存储 器 读 命 
令 ， 把 这 个 任务 书 拿 回来 ， 这 又 是 在 访 存 。 拿 到 任务 
书 以 后 ， 才 能 知道 自己 要 干什么 ， 才 能 去 向 后 端 部 件 
〈 比 如 硬盘 、 网 络 、 声 卡 显 卡 ) 发 送信 号 执行 IO 。 
期 间 ， 还 需要 直接 采用 地 址 请 求 的 方式 将 数据 从 主 存 
中 读 过 来 然后 写 入 后 端 部 件 ， 抑 或 者 从 后 端 部 件 收 到 
数据 直接 采用 存储 器 地 址 访问 请 求 写 入 主 存 ， 而 这 又 
是 在 访 存 。 所 以 你 看 到 ， 访 存 的 目的 是 为 了 IO， 所 
以 这 种 网 络 称 为 访 存 式 IO 网 络 。 而 由 于 PCIE 属 于 目 
前 常用 的 主流 网 络 ， 而 且 其 底层 物理 层 的 速率 还 算 比 
较 高 ， 所 以 称 为 高 速 通用 访 存 式 1O 网 络 。 

至 于 “前 端 ” 是 什么 意思 ? 前 端 是 指 贴近 CPU 的 
那 一 端 。 那 么 后 端 自 然 就 是 远离 CPU 的 那 一 端 。 那 么 
难道 还 有 后 端 IO 网 络 ? 没 错 。 存 储 子 系统 中 使 用 的 
SAS IO 控制 器 ， 其 前 端 采用 PCIE 与 CPU 相连 ， 后 端 
则 挂 接 了 一 个 SAS 网 络 ，SAS 网 络 上 布 满 了 各 种 SAS 
接口 的 设备 ，SAS IO 控制 器 与 后 端 这 些 SAS 设 备 之 间 
的 SAS 网 络 ， 就 属于 后 端 JO 网 络 了 。 可 以 猜 到 的 是 ， 
后 端 IO 网 络 一 般 都 不 是 访 存 式 的 。 猜 对 了 。 我 们 后 
文中 再 介绍 SAS。 

一 个 明确 的 结论 是 ， 如 果 想 要 和 CPU 核 心 直 接 相 
连 ， 那 么 该 1O 控 制 器 必须 采用 访 存 方式 ， 暴 露 一 堆 
寄存 器 ， 用 存储 器 读 写 请 求 来 与 CPU 和 主 存 打交道 。 
PCIE 只 是 在 CPU 前 端的 访 存 网 络 上 开 了 个 口 ， 将 访 存 
网 络 的 边界 扩大 了 一 些 ， 用 一 个 RC 就 可 以 接 入 更 多 
访 存 式 I/O 控 制 器 。 访 存 式 /O 比 较 高 效 ， 但 是 实现 起 
来 也 比较 复杂 。PCIE 网 络 速率 比较 高 ， 成 本 也 比较 
高 ， 扩 展 性 不 强 ， 毕 竟 速 率 较 高 ， 而 且 每 个 IO 设备 
都 在 地 址 空间 中 占有 一 定数 量 的 地 址 ， 如 果 某 个 设备 
想来 去 自如 的 话 〈 热 插 拔 ) ， 比 较 困 难 ， 一 开始 PCIE 
的 热 插 拔 直接 不 被 支持 ， 一 直到 近期 才 逐 渐 成 熟 ， 而 
且 需 要 做 很 多 的 工作 才能 支持 。 访 存 式 I/O 控 制 器 内 
部 还 必须 实现 DMA 控 制 器 来 访问 主 存 ， 同 时 也 必须 
实现 中 断 处 理 模块 ， 与 中 断 控制 器 打交道 。 总 之 ， 想 
接 入 前 端 访 存 网 络 获得 高 效 高 速 的 数据 传输 ， 上 述 就 
是 必须 付出 的 代价 。 

那么 ， 有 没有 一 种 网 络 ， 其 离 CPU 稍 微 远 一 点 ， 
不 采用 访 存 方式 ， 速 度 低 一 些 ， 也 能 接 入 多 个 IO 控 
制 器 ， 但 是 不 需要 每 个 IO 控制 器 暴露 寄存 器 以 及 拥 
有 中 断 向 量 ? 热 插 拔 友好 ， 接 口 小 巧 ， 成 本 更 低 …… 
慢 着 ! 我 怎么 觉得 你 说 得 这 么 像 USB 呢 ? 
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7.4.2 “USB- 中 速 通用 非 访 存 式 后 端 /O 
网 络 


首先 ， 不 访 存 ， 就 一 定 发 不 出 IO 请 求 么 ? 是 
的 。 因 为 不 管 CPU 核 心 执 行 什么 程序 ， 其 发 出 的 信和 号 
一 定 要 么 是 从 某 个 地 址 读 出 数据 ， 要 么 就 是 向 某 个 地 
址 写 入 数据 ， 这 是 当前 任何 一 台数 字 计算 机 中 所 发 生 
的 一 切 事情 的 源头 。 但 是 ， 把 一 个 IO 请 求 传送 给 执 
行 O 的 部 件 ， 一 定 要 用 访 存 的 方式 (用 存储 器 写 请 
求 写 入 对 方 的 寄存 器 ) 么 ? 这 次 答案 是 否定 的 。 要 
理解 IO 的 本 质 : 执行 IO 的 部 件 只 要 能 拿 到 IO 请 求 和 
数据 ， 然 后 执行 IO 后 能 把 数据 和 状态 返回 ， 就 可 以 
了 。 也 就 是 说 ， 发 送 IO 的 一 方 只 要 把 这 个 IO 的 命令 
和 数据 封装 到 数据 包 里 ， 用 某 种 网 络 传 给 对 方 ， 也 能 
发 出 这 笔 JO 请 求 。 

这 两 个 问题 的 答案 似乎 是 自 相 矛盾 的 。 实 际 上 ， 
为 了 发 出 一 笔 IO 请 求 ， 访 存 是 源头 ， 这 是 必须 的 。 
但 是 可 以 用 某 个 角色 ， 先 采用 访 存 的 方式 ， 与 CPU 核 
心 前 端 打 交道 ， 通 过 DMA 方 式 拿 到 该 请 求 ， 然 后 在 
其 后 端 ， 将 该 请 求 用 非 访 存 方式 发 送 给 目标 IO 控制 
器 (比如 封装 成 一 个 以 太 网 包 发 送 给 对 方 )。USB 
主 IO 控制 器 (USB Host Controller) 就 是 这 样 一 个 角 
色 ， 我 们 将 其 简称 为 USB 主 控 。USB 主 控 从 前 端 拿 到 
IO 请 求 ， 然 后 将 请 求 封装 成 USB 网 络 上 的 对 应 的 数据 
包 ， 向 USB 网 络 上 的 目标 设备 传送 ， 数 据 包 中 含有 对 
应 的 设备 编号 信息 ， 从 而 可 以 被 路 由 到 目标 设备 。 

如 果 这 样 讲 的 话 ， 看 上 去 以 太 网 +TCP/IP 协 议 
栈 也 可 以 做 到 这 件 事 啊 ， 只 不 过 是 把 MO 请 求 封装 成 
TCP/IP 包 再 封 到 以 太 网 帧 中 传递 给 目标 设备 ， 任 何 
网 络 都 可 以 用 来 传递 IO 请 求 ， 不 管 其 是 访 存 式 的 还 
是 非 访 存 式 的 。 你 说 对 了 ， 有 一 个 叫 作 iSCSI (SCSI 
over TCP/IP) 的 协议 规范 ， 其 就 是 把 一 种 专门 用 于 
访问 硬盘 的 IO 请 求 (SCSI 请 求 ) 包装 成 TCP/IP 包 和 
以 太 网 帧 ， 然 后 利用 以 太 网 来 传递 给 执行 IO 的 部 件 
的 。 有 兴趣 者 可 以 阅读 冬瓜 哥 的 《大 话 存储 终极 版 》 
一 书 。 不 过 ， 这 种 方式 需要 TCP/IP 来 处 理 ， 而 TCP/IP 
协议 栈 是 运行 在 Host 端 CPU 上 ， 每 一 笔 IO 还 得 耗费 
CPU 来 封装 成 TCP/IP 包 。 而 USB 方 式 对 Host 端 的 耗费 
更 低 ， 因 为 它 的 传输 保障 层 与 PCIE 一 样 ， 都 运行 在 主 
控 内 部 硬件 逻辑 中 ， 所 以 它 对 上 层 软 件 更 加 透明 ， 也 
就 更 加 方便 。 前 文中 提 到 过 ， 一 种 接口 /网 络 /协议 的 
流行 ， 有 时 候 并 不 只 取决 于 它 “ 理 论 上 ”是 否 可 以 满 
足 需求 ， 而 是 和 许多 外 围 因素 有 关 。 

USB 的 全 称 为 Universal Serial Bus， 但 是 不 要 被 
它 的 名 字 骗 了 。USB 并 不 是 想 把 全 宇宙 的 串 行 传输 通 
道 都 Universal 了 ， 但 是 其 的 确 是 目前 计算 机 最 为 常用 
的 一 种 串 行 IO 总 线 。 在 USB 之 前 ， 还 曾 存在 过 诸如 
P/S 2 串口 、IEEE1394 火 线 口 ， 不 过 它们 都 淘汰 了 。 
图 7-121 所 示 为 老 一 代 的 接口 ， 其 中 有 些 依然 宝刀 未 
老 ， 不 过 多 数 都 已 经 阵亡 了 。 
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图 7-121 


值得 一 提 的 是 USB 主 控 在 其 前 端 接 入 访 存 网 络 ， 
其 接 入 方式 可 以 是 直接 采用 Ring/Mesh 等 控制 器 接 入 
核 间 Ring/Mesh 网 络 ， 直 接 与 CPU 核心 以 及 主 存 进行 
面对面 通信 ， 当 然 ， 鲜 有 人 这 么 做 。 更 多 做 法 是 先 接 
入 IO 桥 片 ， 在 利用 IO 桥 上 的 访 存 网 络 〈 比 如 可 以 是 
PCIE 网 络 或 者 其 QPI 网 络 等 ) ， 再 与 CPU 核心 和 主 存 进 
行 沟 通 ， 其 间隔 着 一 个 RC 上 PCIE 总 控制 器 或 者 QPI 控 
制 器 。 对 于 目前 的 多 数 计算 机 ，USB 主 控 一 般 都 是 被 
集成 到 IO 桥 中 的 ， 桥 内 的 网 络 属于 访 存 网 络 ，IO 桥 与 
CPU 再 通过 比如 QPI 连 接 起 来 ，QPI 也 是 访 存 网 络 。 

如 图 7-122 所 示 的 产品 ， 是 一 个 USB 一 PCIE 转 接 
卡 。 可 以 看 到 其 上 有 一 个 USB 主 控 芯 片 ， 该 芯片 前 端 
采用 PCIE 控 制 器 接 入 PCIE 网 络 ， 后 端 则 出 4 个 USB 接 
口 。 不 过 ， 随 着 USB 主 控制 器 逐渐 被 集成 到 IO 桥 中 ， 这 
种 产品 也 就 淡出 市 场 了 。 这 种 转 接 卡 一 般 是 在 某 种 IO 
接口 刚刚 推出 、IO 桥 上 还 没有 集成 它 的 时 候 出 现 。 


图 7-122 
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不 管 怎样 ， 前 端 接 入 访 存 网 络 ， 后 端 接 入 USB 网 
络 ， 这 就 是 USB 主 控制 器 。 图 7-123 所 示 为 冬瓜 哥 电 脑 
上 的 USB 主 控制 器 的 信息 。 该 USB 主 控制 器 是 接 入 到 
IO 桥 上 的 ， 本 章 前 文中 也 提 到 过 ， 在 Intel CPU 平台 
下 ，IO 桥 内 部 的 所 有 IO 控制 器 几乎 都 被 作为 PCIE 设 
备 来 对 待 ， 有 自己 的 BDF ID 和 配置 空间 ， 集 成 在 IO 
内 的 USB 主 控制 器 也 不 例外 。 尽 管 USB 主 控制 器 与 IO 
桥 内 部 的 通道 在 物理 层 、 链 路 层 甚 至 网 络 层 上 根本 没 
有 使 用 PCIE， 但 是 这 并 不 妨碍 其 在 应 用 层 、 总 线 事务 
层 使 用 类 似 PCIE 的 方式 ， 也 并 不 妨碍 其 在 设备 发 现 、 
配置 信息 的 管理 (配置 空间 等 ) 上 也 使 用 PCIE 相 同 的 
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方式 。 可 以 看 到 其 BDF 分 别 为 0/20/0。 右 侧 所 示 为 其 
暴露 的 寄存 器 被 分 配 到 的 物理 地 址 范围 和 被 分 配 的 中 
断 向 量 信息 。 所 以 ，USB 主 控制 器 ， 在 系统 内 是 一 个 
单独 的 PCIE 设 备 ， 其 地 位 和 角色 ， 与 一 块 以 太 网 卡 、 
显卡 、 声 卡 等 没有 区 别 。 它 们 唯一 的 区 别 就 在 于 ， 
以 太 网 卡 把 以 太 网 帧 传 出 去 ， 而 USB 主 控 传递 到 后 端 
USB 网 络 的 则 是 USB 帧 。 所 以 ， 你 完全 可 以 把 USB 主 
控制 器 称 为 “USB 网 卡 ” (图 7-122 不 就 是 么 ) ， 只 不 
过 IO 桥 内 已 经 集成 了 USB 主 控 ， 所 以 直接 在 主板 上 出 
USB 接 口 。 一 样 的 ， 有 些 IO 桥 也 集成 了 以 太 网 主 控 ， 
那 就 直接 出 以 太 网 口 。 

USB 主 控 后 端 连接 着 USB 网 络 ， 有 很 多 USB 设 备 
连接 到 这 个 网 络 上 ， 比 如 USB 鼠 标 键盘 、USB 打 印 
机 、USB 摄 像 头等 。 每 个 USB 设 备 中 都 包含 对 应 的 
IO 主 控制 器 ， 该 IO 主 控制 器 使 用 USB 控 制 器 连接 
到 其 前 端的 USB 网 络 ，USB 网 络 再 通过 USB 主 控制 器 
连接 到 CPU 前 端 访 存 网 络 。USB 主 控 作 为 PCIE 网 络 中 
的 一 个 PCIE 设 备 而 存在 ， 而 USB 鼠 标 则 作为 SB 网络 
中 的 USB 设 备 而 存在 。 这 么 看 来 ， 这 些 IO 网 络 怎么 似 
乎 从 一 个 转 到 另 一 个 ， 没 完 没 了 ? 这 里 可 以 回顾 一 下 
图 7-18。 的 确 ， 整 个 计算 机 内 部 其 实 就 是 一 个 网 络 ， 
以 访 存 网 络 为 核心 ， 周 围 围 绕 着 非 访 存 网 络 。 另 外 ， 
USB 设 备 也 并 非 这 个 层 层 网 络 的 最 后 一 个 节点 。 如 图 
7-124 所 示 ，USB 后 面 还 可 以 再 转 成 以 太 网 或 者 串口 
网 ， 当 然 ， 串 口 已 经 不 是 真正 意义 的 网 了 ， 因 为 它 只 
支持 点 对 点 直 连 拓扑 。 

这 么 说 ，I/O 命 令 和 数据 ， 就 是 在 这 些 网 络 中 
被 层 层 路 由 转发 的 ， 在 源头 ， 用 访 存 方式 获取 IO 数 
据 ， 然 后 通过 不 同 网 络 时 ， 转 换 为 对 应 网 络 的 数据 包 
格式 ? 是 的 ， 其 本 质 就 是 这 样 的 。 带 着 上 述 对 IO 网 
络 本 质 的 认 知 ， 我 们 下 面 再 来 看 USB 主 控 是 如 何 具体 
将 IO 请 求 发 送 给 后 端 USB 网 络 上 的 USB 设 备 的 。 

下 面 干脆 以 图 7-124 中 所 示 的 USB 以 太 网 卡 为 例 ， 
来 思考 一 下 Host 端 的 程序 应 该 怎么 把 一 个 以 太 网 帧 最 
终 传 送 到 连接 到 USB 网 络 中 的 以 太 网 IO 主 控 中 去 。 
在 这 里 先 假设 我 们 不 知道 USB 网 络 的 具体 拓扑 。 它 是 
像 PCI 那 样 的 共享 总 线 型 的 ， 抑 或 是 像 PCIE 那 样 的 交 
换 式 的 ? 这 些 我 们 先 暂且 不 关心 ， 也 更 不 用 先 去 关心 
USB 网 络 底层 的 物理 层 速率 是 多 少 ， 并 行 还 是 串 行 ， 
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图 7-123 USB 主 控制 器 在 系统 中 的 设备 信息 


图 7-124 ”最终 的 设备 可 以 通过 多 个 网 络 层 层 中转 接 入 系统 中 


也 不 用 去 管 它 的 链 路 层 、 传 输 保障 层 是 怎么 运作 的 。 
出 了 错 怎么 办 ? 正如 前 文中 所 叙述 的 ， 上 述 这 些 东 
西 ， 每 个 网 络 都 有 ， 而 且 基 本 上 本 质 都 类 似 。 不 同 网 
络 的 区 别 ， 主 要 在 于 全 局 运作 机 制 ， 这 是 根本 。 

我 们 已 知 的 条 件 是 : USB 主 控 可 以 从 前 端 网 络 访 
存 、USB 主 控 后 面 是 连接 有 很 多 USB 设 备 的 USB 网 络 。 
我 们 要 达到 的 目标 是 : 将 程序 封装 好 的 以 太 网 帧 发 送 给 
USB 网 卡 中 的 以 太 网 控制 器 。 那 我 们 就 开始 推演 了 。 

ө жх, ЦАН РЕЛЕ ТЕ 
中 生成 ， 即 便 是 PCIE 接 口 的 以 太 网 卡 ， 这 一 步 也 是 相 
同 的 和 必须 的 。 至 于 Host 程 序 如 何 调用 TCP/IP 协 议 栈 
一 直到 最 终 封装 出 对 应 的 以 太 网 帧 的 过 程 ， 前 文中 已 
经 介绍 过 多 次 了 ， 如 果 没 印象 了 ， 请 翻阅 前 面 内 容 以 
温 故 知 新 。 

”既然 本 质 上 作为 一 个 PCIE 设 备 而 存在 的 USB 
主 控 暴露 了 自己 的 寄存 器 地 址 ， 也 有 自己 的 中 断 向 
量 ， 那 么 其 就 可 以 被 设计 为 使 用 与 7.1.5 节 介绍 过 的 队 
列 的 方式 ， 从 主 存 中 先 获取 IO Descriptor 任 务 书 ， 然 
后 根据 其 内 含 的 SGL 指 针 ， 从 主 存 中 对 应 地 址 将 数据 
取 回 。 所 以 ，Host 端 的 程序 在 准备 好 以 太 网 帧 之 后 ， 
还 需要 填 好 一 个 IO Descriptor 将 其 放 到 USB 主 控 在 主 
存 中 的 Send Queue 中 ， 并 将 Send Queue 队 列 最 新 的 首 
指针 通知 给 USB 主 控 〈 写 入 后 者 的 存放 SQ 首 指针 的 寄 
FR) 新 的 VO 又 来 了 。 

ө USB 主 控 根据 Descriptor 中 的 信息 ， 将 该 以 


太 网 帧 从 主 存 取 回 到 自己 内 部 的 缓冲 区 中 。 然 后 呢 ? 
如 果 是 PCIE 接 口 的 以 太 网 卡 拿 到 了 这 个 以 太 网 帧 ， 
那么 它 一 定 是 要 向 后 发 出 去 ， 发 到 以 太 网 线路 上 。 但 
是 现在 是 USB 主 控 拿 到 了 该 以 太 网 帧 ， 它 必须 将 该 帧 
发 送 到 后 端的 USB 网 络 上 ， 发 给 连接 在 USB 网 络 上 的 
USB 网 卡 。 那 么 ，USB 主 控 如 何 知道 USB 网 卡 的 USB 
网 络 地 址 ? 目标 USB 网 卡 又 怎么 知道 这 个 数据 要 传送 
给 自己 ? 显然 ， 与 PCIE 一 样 ， 需 要 给 每 个 USB 设 备 编 
上 一 个 地 址 (与 PCIE 网 络 的 BDF ID 类 似 ) ，Host 端 
设备 管理 程序 也 一 样 需要 先 枚 举 出 USB 网 络 上 的 所 有 
设备 以 及 设备 的 基本 信息 (配置 信息 ) 。 程 序 在 IO 
Descriptor 中 也 必须 给 出 本 次 传送 的 数据 的 目标 USB 地 
址 以 及 一 些 其 他 传送 参数 ， 以 便 让 USB 主 控 按照 既定 
的 传送 规则 将 数据 传送 给 目标 USB 设 备 。 

@ USB 网 卡 利 用 其 芯片 前 端的 USB 控 制 器 从 
USB 网 络 上 接收 了 这 份 数 据 (一 个 以 太 网 帧 ) 到 其 内 
部 缓冲 区 ， 至 此 ， 后 续 的 行为 和 步骤 与 前 文中 介绍 的 
PCIE 接 口 网 卡 类 似 。 

”如 果 USB 网 卡 从 后 端的 以 太 网 上 接收 到 了 数 
据 包 ， 那 么 它 需 要 将 该 数据 包 经 过 USB 网 络 传送 到 
USB 主 控 ，USB 主 控 再 将 这 个 数据 包 DMA 到 主 存 ， 
然后 中 断 CPU， 运 行 中 断 服务 程序 来 处 理 该 数据 包 。 
上 文 介 绍 过 ，USB 设 备 被 设计 为 不 能 发 出 中 断 ， 所 以 
USB 主 控 要 代替 其 后 端的 所 有 USB 设 备 向 前 端 网 络 发 
出 中 断 请 求 ， 然 后 由 中 断 服务 程序 来 处 理 数据 。 这 相 
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当 于 PCI 时 代 的 共享 中 断 信号 的 处 理 方式 ， 只 不 过 PCI 
的 共享 中 断 方式 是 中 断 服务 程序 必须 挨个 对 共享 中 断 
的 所 有 PCIE 设 备 进行 查询 〈 比 如 PCIE 设 备 可 以 暴露 
一 个 中 断 状态 寄存 器 ， 其 中 存放 本 次 发 生 中 断 的 事件 
ID， 这 样 其 驱动 程序 就 可 以 根据 这 个 ID 来 决定 如 何 处 
BB) ， 依 次 调用 这 些 设备 对 应 的 中 断 服务 程序 执行 。 
其 实 还 有 更 好 的 方法 ， 那 就 是 USB 主 控 将 USB 设 备 发 
来 的 数据 ， 连 同 该 USB 设 备 的 地 址 一 同 写 入 到 主 存 ， 
触发 中 断 ， 然 后 由 USB 主 控 的 中 断 服务 程序 判断 本 次 
待 处 理 数据 对 应 的 USB 设 备 的 地 址 ， 再 去 将 该 地 址 对 
应 的 USB 设 备 对 应 的 中 断 服 务 程序 调用 起 来 处 理 数 
据 。 当 然 ， 这 只 是 我 们 的 猜想 ， 至 于 实际 实现 是 否 如 
此 ， 还 得 看 最 终 事实 。 

上 面 这 个 思路 基本 上 能 够 让 这 个 体系 运作 起 来 。 
但 是 总 感觉 相 比 PCIE 方 式 下 ， 简 直 少 了 太 多 东西 。 比 
如 ，PCIE 设 备 的 主 控 可 以 暴露 大 量 的 各 式 寄 存 器 ， 用 
于 盛 放 配置 、 盛 放 参 数 、 缓 冲 数据 等 ， 而 且 还 可 以 字 
节 级 直接 寻 址 。 而 在 USB 网 络 中 ， 只 有 USB 主 控制 器 
暴露 了 这 些 寄存 器 ， 其 后 端 位 于 USB 网 络 上 的 USB 设 
备 的 IO 控制 器 好 像 什么 也 没 暴露 ， 就 暴露 了 一 个 USB 
网 络 的 地 址 。 数 据 传 到 这 个 地 址 上 ， 然 后 呢 ? 好 像 就 
石沉大海 了 。 但 是 仔细 一 想 ，PCIE 设 备 从 主 存 中 拿 
到 数据 包 之 后 ， 不 也 是 石沉大海 了 么 ? 至 此 Host 端 程 
序 就 再 也 不 知道 拿 到 的 数据 后 续 是 被 怎么 处 理 的 。 所 
以 ， 两 者 结果 其 实 都 一 样 ， 只 是 拿 数据 的 方式 不 一 样 。 
PCIE 是 通过 Host 端 传 来 的 指针 直接 到 主 在 中 取 DMA 获 
取 ， 而 USB 设 备 则 是 由 USB 主 控 从 主 存 DMA 拿 到 之 后 再 
用 USB 网 络 的 传送 方式 传 过 来 ， 两 者 没什么 不 同 。 

思考 一 下 ，USB 设 备 难道 不 需要 像 Host 端 的 程序 
来 展示 自己 的 信息 么 ? 必须 要 展示 ， 和 否则 Host 端 的 程 
序 就 根本 不 知道 某 个 USB 设 备 到 底 是 什么 类 型 、 哪 个 
厂商 的 ， 也 就 无 法 决定 该 设备 识别 的 数据 包 是 以 太 网 
Wi (USB 网 卡 ) ， 还 是 SCSI 指 令 包 (USB 存储 设 备 / 
UR) ， 抑 或 是 其 他 。 所 以 ， 像 PCIE 设 备 一 样 ，USB 
也 需要 有 自己 的 配置 信息 。 那 么 这 是 否 也 就 意味 着 ， 
在 USB 网 络 体 系 中 需要 定义 一 个 与 PCIE 配 置 读 写 请 求 
类 似 的 USB 数 据 包 格式 呢 ? 这 应 该 是 有 必要 的 。 不 管 
采用 什么 方式 ， 必 须 对 发 向 USB 设 备 的 数据 包 进 行 区 
分 ， 起 码 配置 访问 和 数据 访问 得 分 开 。 

上 面 是 我 们 初步 推演 的 一 些 结论 。 带 着 这 些 思考 
和 疑问 ， 再 来 看 一 下 USB 网 络 实际 是 怎么 设计 的 。 


7.4.2.1 USB 网 络 的 基本 拓扑 


USB 网 络 采用 的 是 共享 总 线 方式 ， 总 线 上 的 每 个 
USB 设 备 都 会 接收 到 同样 的 数据 ， 这 一 点 与 PCI 总 线 
是 类 似 的 。 每 个 USB 设 备 拥 有 一 个 7 位 长 度 的 USB 网 
络 地 址 ， 该 地 址 由 Host 端 设备 管理 程序 在 枚 举 USB 网 
络 时 动态 分 配 。 还 记得 PCIE 设 备 是 如 何 知道 自己 的 
BDF 的 么 ? 当 其 收 到 配置 读 请 求 时 ， 会 从 配置 读 TLP 中 
提取 出 目标 ID， 这 就 是 自己 的 地 址 。 而 USB 主 控 是 通过 
传送 特定 的 数据 包 来 通告 地 址 的 ， 我 们 下 文中 再 介绍 。 


USB 网 络 中 也 可 以 存在 类 似 PCI 桥 接 器 的 角色 ， 
被 称 为 USB Hub。 但 是 USB Hub 与 PCI 桥 接 器 有 本 质 不 
同 ， 后 者 只 是 极其 简单 地 将 上 游 入 方向 的 数据 广播 到 
所 有 出 方向 端口 上 ， 但 是 回程 数据 只 会 被 转发 给 上 游 
端口 而 不 是 广播 给 所 有 端口 ， 所 以 其 本 身 就 相当 于 一 
根 单 向 广播 的 导线 ， 否 则 这 个 角色 也 不 需要 了 ， 大 家 
都 连接 到 同一 个 总 线 就 可 以 了 。 另 外 Hub 内 部 有 对 应 
的 信号 中 继 器 ， 也 就 是 Repeater 电 路 ， 负 责 将 接收 的 
信号 重新 增强 再 发 出 ， 这 样 可 以 使 得 USB 网 络 的 范围 
和 举例 变 得 更 大 。 相 对 而 言 ，PCI 桥 接 器 做 的 工作 可 
就 精细 多 了 ， 其 本 质 上 是 一 个 地 址 路 由 器 ， 只 会 将 匹 
配 了 下 游 地 址 路 由 的 TLP 转 发 给 下 游 。PCI 桥 接 器 是 
要 做 精确 的 TLP 过 滤 的 ， 而 USB Hub 则 是 一 概 转发 。 

Hub 内 部 会 有 一 个 小 控制 器 ， 能 够 接收 和 执行 简 
单 的 控制 命令 ， 比 如 对 下 游 端口 的 供电 控制 以 及 打开 
和 关闭 等 。 如 果 有 新 USB 设 备 插入 的 话 ， 也 是 由 Hub 
的 控制 器 负责 记录 这 些 事 件 ， 上 层 程 序 可 以 读 取 这 些 
信息 。Hub 还 需要 通过 响应 配置 读 写 请 求 向 外 展示 自 
己 的 设备 属性 信息 ， 并 负责 监视 其 所 连接 的 下 游 端口 
的 状态 等 信息 ， 以 供 上 层 程序 查询 。 与 PCI 桥 接 器 一 
样 ，Hub 上 的 微 控制 器 本 身 也 作为 USB 网 络 中 的 一 个 
USB 设 备 而 存在 ， 也 有 自己 的 USB 地 址 和 配置 信息 。 
图 7-125 所 示 为 Hub 内 部 结构 。 
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图 7-125 USB Hub 内 部 结构 
提示 * 
USB 2.0 规 范 中 ， 由 于 为 了 兼容 更 多 不 同 速 
率 类 型 的 设备 ，Hub 需 要 做 更 多 的 工作 ， 包 括 将 
一 些 数据 包 的 传送 方式 在 不 同 过 率 模式 之 间 做 匹 


配 转 换 。 所 以 这 样 会 多 增加 一 个 叫 作 Transaction 
Translator ( 简称 TT ) 的 部 件 ， 在 此 就 不 多 介绍 了 。 


图 7-126 左 侧 所 示 为 USB 网 络 的 整体 拓扑 结构 。 每 
个 USB 主 控制 器 必须 配 有 一 个 Root Hub， 因 为 每 个 主 控 
至 少 要 推出 多 个 USB 端 口 。Root Hub 就 是 把 从 USB 主 控 
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Е 在 Root Hub 下 面 可 以 级 联 更 多 级 Hub， 这 与 PCI 网 络 的 树 形 拓扑 是 
相同 的 。 只 不 过 整个 USB 网 络 身 处 一 个 大 共享 总 线 ，USB 主 控 发 出 的 
信息 会 被 所 有 USB 设 备 接收 到 ， 大 家 各 自 根据 信息 中 的 地 址 字段 判断 
自己 是 不 是 该 收入 并 处 理 对 应 的 数据 包 。 

如 果 某 个 设备 中 集成 了 USB Hub， 则 该 设备 称 为 Compound Device 
(USB 复 合 设备 ) ， 意 即 其 内 含 了 一 个 Hub。 图 7-126 中 间 所 示 为 一 个 
常用 的 个 人 电脑 设备 连接 图 。 主 机 上 采用 一 个 USB 主 控制 器 ， 连 接 了 
一 个 3 端口 的 Root Hub， 分 别 连接 着 另 一 个 独立 的 Hub、 一 个 USB 多 功 
能 电话 和 一 台 显示 器 。 其 中 显示 器 为 一 个 复合 USB 设 备 ， 其 内 含 了 一 
个 Hub， 额 外 接 了 一 个 USB 耳 麦 、 一 个 USB 声 卡 + 一 对 音响 和 一 个 多 功 
能 键盘 。 其 中 多 功能 键盘 又 是 一 个 复合 设备 ， 内 置 了 一 个 Hub， 额 外 
连接 了 USB 鼠 标 和 USB 手 写 板 。 


很 多 场合 下 ， 人 们 混用 Compound 和 Composite 这 两 个 词 。 


输出 的 一 路 信号 ， 扩 展 广播 成 多 路 信号 的 Hub。 
B № 


Host/Hub 
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Function 


Hub/Function 


Function 


USB 网 络 中 以 USB 主 控制 器 为 根 ，Root Hub 将 根 扩充 为 多 个 端口 ， 
然后 可 以 用 Hub 继 续 扩充 。 所 以 共存 在 USB 主 控 、Hub 和 最 终 的 USB 设 
备 这 三 种 角色 。 其 实 ，Hub 也 算 一 种 USB 设 备 ， 也 可 以 用 USB 地 址 寻 
址 ， 比 较 特殊 。 为 了 与 Hub 区 分 ， 那 些 实现 最 终 用 户 功能 的 USB 设 备 称 
为 Function， 其 与 PCIPCIE 体 系 中 的 设备 的 Function 是 有 区 别 的 。 一 个 
PCIE Device 中 最 大 可 包含 8 个 Function。 对 于 单个 USB Device/Function 来 
说 ， 其 内 部 其 实 也 可 以 有 多 个 子 设备 。 

比如 对 于 一 个 鼠标 + 手写 板 二 合 一 的 USB 设 备 ， 其 可 以 采用 上 述 
的 Hub+ 两 个 USB 设 备 〈 各 自 只 有 一 个 Interface) 的 方式 组 成 一 个 复合 
设备 ， 也 可 以 采用 在 同一 个 USB 设 备 内 部 放置 两 个 Interface 的 方式 来 
实现 。 后 者 这 种 方式 被 称 为 USB Composite Device， 或 者 USB 混 合 设 
备 ， 其 与 复合 设备 的 区 别 在 于 前 者 内 部 并 不 集成 Hub。USB 混 合 设备 
只 有 一 个 USB 地 址 ， 而 USB 复 合 设 备 内 部 的 每 个 USB 设 备 都 有 自己 的 
USB 地 址 。 混 合 设备 中 的 多 个 子 设备 通过 同一 个 USB 端 口 地 址 接收 数 
据 ， 通 过 不 同 的 EP 号 〈 见 下 文 ) 来 区 分 数据 包 是 发 给 哪个 子 设备 的 。 

图 7-127 所 示 为 冬瓜 哥 的 笔记 本 电脑 上 的 USB 主 控制 器 和 Hub 以 及 
Composite Device 一 览 。 可 以 看 到 其 中 有 两 个 USB 主 控 ， 它 们 分 别 为 
USB 3.0 可 扩展 主机 控制 器 以 及 Enhanced PCI to USB 主 控制 器 ， 其 中 
还 有 每 个 主 控制 器 各 自 对 应 的 Root Hub， 以 及 一 个 接 入 到 Root Hub E 
的 二 级 Hub 〈 图 中 的 Generic USB Hub) 。 

~ ў жене 
Ë Generic USB Hub 


$ Intel(R) USB 3.0 可 扩展 主机 控制 器 - 1.0 (Microsoft) 
Ë Standard Enhanced PCI to USB Host Controller 


Function 
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ЕЕ ш ф USB Composite Device 
— š Ë š USB Composite Device 
о с г USB Root Hub 
= El НЫ H USB RHC) 
У 图 7-127 一 台 PC 中 的 USB 设 备 
Ш E м USB 体 系 中 引入 了 一 个 被 称 为 Configuration 的 新 概念 。 首 先 ， 
Я š pE 一 个 USB Device/Function 内 部 可 以 包含 多 个 Configuration， 每 个 
Š О 59 Configuration 下 面 又 可 以 包含 多 个 Interface。Interface 并 不 是 指 物 
= 理 上 端口 的 意思 ， 每 个 Interface 其 实 相当 于 一 个 子 设备 。 这 么 看 来 
TN Pn Configuration 这 个 东西 好 像 毫 无 意义 。 其 实 ，USB 为 了 让 设备 体现 出 
— = 


更 高 的 灵活 性 以 适应 更 多 场景 ， 人 允许 一 个 USB 设 备 中 维护 多 套 配 置信 
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图 7-128 USB 设 备 内 部 的 子 设备 层次 示意 图 


息 ，Host 端 程序 可 以 从 中 选择 一 套 给 USB 设 备 穿 上 。 
选择 了 哪 套 ，USB 设 备 就 按照 这 套 配置 参数 所 描述 的 
运行 模式 来 运行 〈 比 如 运行 在 什么 速率 下 等 等 ) 。 这 
其 实 是 一 个 很 有 趣 的 做 法 。 至 于 选择 哪 一 套 ， 需 要 看 
该 配置 对 应 的 各 种 参数 是 否 可 以 被 当前 的 系统 条 件 所 
满足 ， 比 如 运行 速率 、 功 耗 等 。 如 果 第 一 套 配置 无 法 
满足 ， 程 序 就 选择 第 二 套 配置 。 

图 7-128 所 示 为 USB 设 备 内 部 的 子 设备 层次 示意 
图 。 可 以 看 到 该 USB 设 备 内 部 有 两 套 可 选 配 置 。 右 
侧 这 套 配置 规定 了 该 设备 内 只 有 一 个 Interface， 三 个 
端点 〈 Endpoint, ЕР) 都 归 该 Interface 所 有 ;而 左 
侧 那 套 配 置 则 将 该 设备 分 隔 成 两 个 子 设备 Interface， 
Interfacet0 拥 有 一 个 EP，Interface#1 拥 有 两 个 EP。 具 体 选 
用 哪 套 配置 ，Host 端 设备 管理 程序 以 及 设备 的 驱动 程序 
需要 参与 决定 。 那 么 ， 图 中 的 EP 又 是 什么 东西 ? 

回顾 PCIE， 每 个 PCIE 设 备 IO 控 制 器 内 部 会 有 一 
些 寄存 器 或 者 缓冲 区 ， 可 以 将 这 些 寄存 器 /缓冲 区 暴露 
出 来 供 Host 端 程序 直接 寻 址 。 每 个 PCIE 设 备 可 以 通过 
6 个 BAR 暴 露 6 大 段 地 址 空间 。 这 里 思考 一 下 ， 其 实 只 
用 一 个 BAR 暴 露 1 大 段 空间 就 完全 可 以 ， 放 置 6 个 BAR 
就 是 为 了 让 上 层 程序 更 加 方便 地 访问 这 些 缓冲 区 ， 就 
像 将 一 个 大 柜子 分 隔 成 多 个 小 空间 一 样 ， 这 样 用 起 来 
方便 且 容 易 记 忆 和 编程 。 那 么 对 于 一 个 USB Device 或 
者 Interface 子 设备 来 讲 ， 其 内 部 的 缓冲 区 是 没有 暴露 
出 来 可 供 直接 寻 址 的 ， 于 是 人 们 用 这 样 一 个 方法 来 提 
供 类 似 多 个 BAR 的 效果 : 为 每 个 Interface 设 置 一 个 或 
者 多 个 EP， 每 个 EP 对 应 着 子 设备 内 部 的 某 段 缓冲 区 
或 者 某 个 接收 电路 模块 ， 至 于 其 物理 上 是 什么 ， 都 可 
以 。USB 主 控 要 向 子 设备 发 送 数据 的 时 候 ， 需 要 指定 
对 应 的 EP 号 ， 这 样 ，USB Device 的 USB 控 制 器 收 到 对 
应 数据 就 知道 将 数据 放置 到 内 部 哪个 缓冲 区 了 。EP 号 
在 一 个 USB Device 配 置 内 部 是 全 局 编号 的 ， 所 以 USB 
主 控 发 送信 息 时 不 需要 指定 Interface 号 ， 只 需要 给 出 
USB 设 备 地 址 + 本 设备 内 的 EP 号 即 可 。 当 然 ， 给 哪 
个 EP 发 送信 息 还 是 由 上 层 程序 决定 的 ，USB 主 控 只 
是 传送 者 而 已 。 至 于 每 个 子 设备 中 的 EP 是 怎么 规划 
的 、 各 用 来 接收 什么 数据 ， 这 完全 取决 于 其 自身 ， 并 
且 要 由 该 设备 的 驱动 程序 来 负责 将 对 应 的 命令 /数据 写 


到 对 应 的 EP。 就 像 PCIE 设 备 在 BAR#0 中 放 哪 些 寄存 
器 ，BAR#1 中 又 放 哪些 ， 完 全 取决 于 设备 自身 。 

EP 可 以 让 设备 内 的 资源 被 更 细 粒 度 地 划分 ， 比 
如 接收 缓冲 区 作为 一 个 EP， 发 送 缓冲 区 作为 另 一 个 
EP。 只 不 过 ，EP 是 无 法 被 直接 寻 址 的 ， 而 只 能 是 把 
数据 封装 到 数据 包 中 ， 打 上 EP 号 和 USB 地 址 ， 发 送 给 
USB 设 备 。 后 者 收 到 之 后 根据 EP 号 将 内 容 放置 到 对 
应 的 缓冲 区 中 ， 然 后 由 内 部 的 处 理 逻 辑 做 后 续 处 理 。 
发 送 方 将 数据 发 给 对 应 EP 之 后 ， 就 再 也 不 知道 这 个 
数据 被 放 到 哪里 以 及 后 续 是 怎么 处 理 的 。 发 送 方 也 并 
不 知道 每 个 EP 对 应 的 存储 器 容量 ， 甚 至 根本 不 知道 
“EP” 是 什么 意思 。EP 本 质 上 就 是 一 个 地 址 号 ， 与 
IP、MAC 地 址 等 一 样 ， 用 来 区 分 某 个 接收 端 。 通 常 来 
讲 ， 每 个 EP 对 应 的 物理 实体 就 是 一 段 FIFO 缓 冲 区 ， 
新 收 到 的 数据 被 放置 到 队 尾 。 


提示 * 

每 个 USB 设 备 必须 至 少 有 一 个 EP0，EP0 不 隶属 
于 任何 Interface， 其 直接 隶属 于 整个 USB 设 备 ， 专 
供 接收 配置 读 写 命令 。 一 个 USB 设 备 最 多 可 以 有 16 
个 EP， 具 体 实现 多 少 个 看 设备 具体 设计 ， 多 数 设 备 
仅 有 1 个 或 则 几 个 EP ( 除 EP0 之 外 ) 。 


USB 设 备 内 部 的 所 谓 Configuration、Interface 都 
是 虚 的 东西 ， 只 有 EP 有 物理 实体 的 对 应 。Interface 可 
以 说 是 一 堆 EP 的 逻辑 分 组 ，Configuration 又 是 一 堆 
Jnterface 的 逻辑 分 组 。 


7.4.2.2 USB 设 备 的 枚 举 和 配置 


与 PCI 网 络 直接 把 每 个 设备 的 ID 与 其 连接 的 端口 
位 置 做 固定 绑 定 的 方式 不 同 的 是 ，USB 网 络 中 每 个 设 
备 的 USB 地 址 是 动态 分 配 的 ，Host 端 设备 管理 程序 需 
要 动态 给 每 个 设备 分 配 一 个 地 址 。 要 分 配 地 址 ， 首 
先 要 发 现 设备 。 由 于 USB 网 络 是 一 个 共享 总 线 型 的 网 
络 ， 在 所 有 设备 还 没有 地 址 的 时 候 ， 如 果 尝 试 给 某 个 
设备 分 配 地 址 ， 所 有 设备 都 会 接收 到 这 个 分 配 地 址 的 
命令 ， 导 致 无 法 区 分 。 如 果 换 了 你 ， 你 怎么 给 在 同一 
个 屋子 里 一 群 人 分 发 证 件 呢 ? 那 就 是 让 他 们 一 个 一 个 


地 排队 接受 。 所 以 ，USB 网 络 强烈 依赖 Hub 来 迫使 连 
接 在 所 有 Hub 上 的 USB 设 备 排队 接受 地 址 分 配 。 
系统 加 电 之 后 ，Hub 内 的 微 控制 器 启动 ， 其 默认 
会 把 所 有 下 游 端口 Disable (但 是 Hub 是 可 以 通过 导线 
信号 获知 哪个 端口 是 连接 了 设备 的 ) ， 只 Enable 上 游 
端口 。Hub 也 是 一 个 USB 设 备 ， 所 以 其 也 需要 被 分 配 
USB 地 址 ， 当 加 电 初 始 时 ，Hub 会 默认 自己 的 USB 地 
址 为 7 个 0。Host 端 负责 枚 举 USB 网 络 的 设备 管理 程序 
直接 向 USB 主 控制 器 发 出 针对 USB 地 址 0、EP0 的 配置 
信息 读 取 命令 (Get_Device_Descriptor 命 令 ， 相 当 于 
PCI 体 系 中 的 配置 读 TLP) ， 要 求 读 出 该 Hub 的 设备 配 
置 描述 信息 。 每 个 USB 设 备 必须 将 自己 的 各 种 配置 信 
息 映 射 到 EP0 下 面 ， 配 置 读 命令 也 必须 发 送 到 EP0。 
设备 从 EP0 的 命令 FIFO 中 接收 到 配置 读 命令 后 ， 从 其 
内 部 保存 配置 信息 的 存储 器 中 读 出 对 应 的 信息 返回 给 
上 游 。 设 备 管理 程序 需要 先 拿 到 对 应 设备 的 设备 信息 
描述 ， 之 后 也 就 知道 了 该 设备 的 存在 以 及 它 是 谁 ， 然 
后 给 该 设备 分 配 一 个 非 0 地 址 ， 具 体 方式 是 通过 向 其 
EP0〔 此 时 该 USB 地 址 依然 为 全 0) 使 用 Set_Address 命 
令 写 入 对 应 的 地 址 ， 设 备 收 到 之 后 ， 取 出 地 址 备用 。 


这 里 需要 充分 理解 一 点 ， 设 备 管理 程序 并 不 知 
道 此 时 它 所 发 送 的 USB 地 址 0、EP0 的 配置 读 请 求 
到 底 被 发 送 给 了 谁 ， 这 个 完全 由 Hub 说 了 算 。 加 电 
之 初 ，Hub 把 所 有 下 游 端口 Disable， 那 么 ，Host 端 
发 来 的 配置 读 请 求 自然 就 只 能 被 自己 收 到 ， 而 不 会 
被 广播 到 下 游 端 口 ， 那 么 自然 Host 端 首先 会 识别 到 
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的 是 Hub 这 个 USB 设 备 ， 分 配 的 地 址 也 被 Hub 抢 了 
先 。 之 后 怎么 办 ? 可 以 自己 先 想 一 下 ， 用 什么 办 法 
来 将 Hub 下 游 的 USB 设 备 一 个 一 个 依次 呈现 给 Host 
端 并 最 终 获得 地 址 ? 你 可 能 猜 到 了 : Hub 可 以 依次 
Enable 每 个 端口 ， 一 次 一 个 。 具 体 过 程 下 文 再 介绍 。 


USB 体 系 将 设备 的 各 种 配置 信息 称 为 Descriptor 
(描述 体 ) ， 其 本 质 与 PCI 设 备 的 配置 空间 一 样 。 
每 个 USB 设 备 包 含 多 种 描述 体 : Device Descriptor, 
Configuration Descriptor、Interface Descriptor 和 
Endpoint Descriptor。 可 以 看 到 与 上 文中 介绍 的 USB 
设备 内 部 的 资源 分 层 相 匹配 ， 每 个 逻辑 分 层 都 有 各 
自 的 描述 体 ， 用 于 声明 本 层 的 各 种 信息 。 图 7-129 和 
图 7-130 所 示 为 Hub 设 备 的 对 应 的 描述 体 中 的 项 目 和 
介绍 。USB Function 设 备 也 一 样 具 有 这 几 个 配置 描述 
体 ， 如 图 7-131、 图 7-132 和 图 7-133 所 示 。 至 于 其 中 每 
一 条 的 含义 ， 可 以 先 走 马 观 花 而 不 必 细 究 ， 当 清楚 了 
整个 体系 框架 之 后 再 重 温 即 会 自然 理解 。 

设备 管理 程序 先 拿 到 Device Descriptor， 就 可 以 
为 USB 设 备 分 配 地 址 了 ， 然 后 便 通过 该 地 址 与 该 设备 
通信 ， 读 出 该 设备 的 其 他 描述 体 ， 从 而 获知 该 设备 的 
全 部 信息 ， 然 后 对 该 USB 进 行 参数 配置 ， 然 后 再 去 根 
据 获 取 到 的 Vendor ID 等 信息 加 载 该 设备 对 应 的 驱动 程 
序 。 当 然 ，Hub 由 于 并 非 一 个 Function 设 备 ， 其 本 身 不 
需要 驱动 程序 ， 亦 或 者 说 负责 枚 举 USB 网 络 的 程序 本 
身 已 经 是 Hub 的 驱动 程序 了 。 

给 Hub 分 配 了 地 址 之 后 ， 就 需要 解决 被 Hub 藏 起 来 
的 下 游 USB 设 备 的 地 址 分 配 问题 了 。 其 实 ，Hub 会 将 
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оте | na | sire | уме Description Offset Field Size | Value Description 
‚ ush 1 |мен | бомбе онтон Length 1 | Number | Size of this descriptor in bytes. 
1 DescriptorType 1 | м DEVICE Descriptor 
"" ратуе Descriptor- 1 [om CONFIGURATION. 
+ [us 2 [асо | USB Specincation Release Number in Binary-Coded Type 
Decimal (Le. 240 is 200). This feld identifies the release 
Јефимије кйсй hu o фсе and ts Фор TotalLength 2 | Number | Total length of data returned for this configura- 
tion. Includes the combined length of all descrip- 
+ | режеса С Hub Class code = 09h- tors (configuration, interface, endpoint, and class 
5 | peviesubdas | 1 |0 Hub Subclass code (assigned by USB). a vendor specific) returned for this configura- 
jon. 
These codes are qualified by the value of the Device- 
Chass feld. Numinter 1 | Number | Number of interfaces supported by this configu- 
If the DeviceClass field is reset to zero, this feld must = ae 
"an Configura- 1 | Number | Value to use as an argument to Set Configuration 
s режећика | í [о Protocol code (assigned by USB) tionValue to select this configuration. 
These codes are излей by the value of the Devier- Configura- 1 | index | Index of string descriptor describing this config- 
Class and the DeviceSubClass fields. Ма device sup- uration. 
ports ols ona еке basisas 
Opposed to an interface basis, this code Attributes 1 Bitmap Configuration characteristic 
Би t e Jenie wes meae by en “i к 
рт Bus Powered 
M this ñeld is reset to zero, the device does not use class- 06 Self Powered 
specific protocols on a device basis However. it my use D5 Remote Wakeup (not used by hub) 
class -specific protocols on an interface basis. ФЕ: eat yam об) 
M this ekd is set to apF the device uses a vendor-spe- 
protocol on a device basis A device configuration that uses power from the 
bus and a local source at runtime may be deter- 
т | Maxpachetsizen | 1 | oun | Maximum packer size for endpoint zera. о Ga Cu Baa ES эш, 
8 Vendor 2 јр Vendor ID (assigned by USB). 
10 | Product 2 |» Product ID (assigned by manufacturer). MaxPower 1 Х?та Maximum amount of bus power this hub will 
12 |реже з |вср Devke release number in binary-coded decimal. consume in this configuration. This value 
includes the hub controller, all embedded 
м | Manutactuer | 1 | Index | Index of string descriptor describing manufacturer devices. and all ports (value based on Ела incre- 
15 | Produa 1 | index Index of string deseriptor describing product ments). 
лв | SerialNumber | 1 | вах | index of siring descriptor deserising the deviens serial 
number 
12 | NumConngura | 1 | Number | Number af possible configurations 


图 7-129 Hub 设 备 的 对 应 的 描述 体 中 的 项 目 和 介绍 (1) 


可 大 话 计算 机 一 一 计算 机 系统 底层 架构 原理 极限 剖析 


下 游 端 口 的 状态 记录 到 内 部 的 寄存 器 中 ， 它 叫 作 Port 
Status Register， 每 个 端口 对 应 一 个 。 主 机 端 设备 管理 
程序 可 以 通过 向 Hub 的 EP0 端 点 发 送 Get Port_Status 命 令 
来 获取 其 中 某 个 端口 状态 〈Hub 内 部 控制 器 接收 并 解析 


且 解 析 该 命令 ， 并 利用 控制 通路 向 对 应 端口 硬件 发 出 
信号 Enable 对 应 端口 ) 。 这 样 就 放 开 了 一 个 连接 在 Hub 
上 的 USB 设 备 ， 该 被 放 开 的 USB 设 备 此 时 尚 没有 被 分 
配 地 址 ， 所 以 其 依然 会 使 用 全 0 的 默认 地 址 。 然 后 Host 


该 命令 然后 返回 对 应 的 内 容 ) ， 然 后 对 Hub 的 EP0 发 送 ”端的 软件 就 可 以 向 全 0 的 USB 地 址 的 EP0 继 续 发 送 Get_ 
Port_Reset 命 令 来 Enable 这 个 端口 (Hub 中 的 控制 器 接收 Device_Descriptor 命 令 尝试 读 取 其 描述 体 ， 此 时 该 信 
Hub Interface Descriptor 
ona Le 20 = еса Hub Status Endpoint Descriptor 
о | Length 1 Number | Size of this descriptor in bytes. 
Offset Field Size | Value Description 
1 | Descriptor- 1 04 TNTERFACE Descriptor Type = 4. 
Type 0 | Length 1 | Number | Size of this descriptor in bytes. 
2 | Interface- n Number | Number of interface. Zero-based value 1 |Descriptorlype 1 | Constant | ENDPOINT Descriptor Type 
а Tessa ааа оао > |EndpointAddress | 1 | Endpoint | Тһе address of the endpoint on ће 
има сообаманое. USB device described by this 
descriptor. The address is encoded 
3 | Alternate- 1 Number | Value used to select alternate setting as idiome. 
Setting ааа карары RSE Bits 0:3 theendpoint number 
Bits 4:6 reserved, reset to zero 
4 | NumEnd- 1 | Number | Number of endpoints used by this Bits7 mustbe 1" — IN end- 
points interface (excluding endpoint zero). point 
Hub must implement a status change 
endpoint. (Hubs must implement a 3 | Аше 1 | Bitmap | This field describes the endpoint's 
status change endpoint, but may also attributes when it is configured 
include additional endpoints.) using the Configuration Value: 
$ | Interface- n Class | Class code (assigned by USB). Bits 01 — Transf Type: 
Class H Interrupt only 
1f this беја is reset to zero, the Interface э 
does not belong to any USB specified абы о 
device class. 4 | MaxPacketSize | 2 | Number | Maximum packet size this endpoint 
is capable of sending or receiving 
в | Interface- 1 | Subclass | Subclass code (assigned by USB). 
Subclass These codes are qualified by the value жининин 
of the InterfaceClass field. For interrupt endpoints smaller data 
payloads may be sent, but these will 
ВЕЕ т | Protocol | Protocol code (assigned by USB). Басат ase esa раје 
Tf this field is reset to zero, the device may not require intervention to 
does not use a class-specific protocol restart. 
on this interface. If this field is set to 
ОХЕ, the device uses a vendor-specific 6. wawa , САВИ а 
ан рај ој о ду rs. Expressed in millisec- 
P' оп. For interrupt endpoints, this 
8 | Interface 1 OIh | Index of string descriptor. field may range from 1 to 255. 
图 7-130 Hub 设 备 的 对 应 的 描述 体 中 的 项 目 和 介绍 (2) 
Device Descriptor Definition 
Ове | Field | Size | Value Description 
(bytes) 
Device Descriptor Definition 
0 | Length 1 | Number | Size of this descriptor in bytes Ee FRR 
1 [Descrip | 1 fo DEVICE Descriptor Type = 01h Oye 
torType 6 | Device- 1 Protocol | Protocol code (assigned by USB) 
Protocol 
2 |UsB 2 |вср [а tasya, Reksane Мазі in These codes are qualified by the value of 
inary- сипа] (Le., 2. the DeviceClass and the DeviceSubClass 
0x200). This field identifies the release of В, Га daoa воррока сагера ће 
the USB specification with which the рои анс ам аорта i 
aaan аге соторшаги. an interface basis, this code identifies the 
а | Device- 1 [Class | Class code (assigned by USB). рр 
Class у 
ТЕ this field is reset to zero, each interface и ноо ые 
within а configuration specifies its own оны рай арка 
Qs information and the various iner- ee basis. However, It may use class- 
Бела opalane рел кеду. specific protocols on an interface basis. 
1f this field is set to FF, the device uses а 
Values between 1 and FEh specify the vendor-specific protocol. 
class definition for an aggregate inter- 
Тасе Тыз ппеапз фак е весе зиррогз 7 | мах 1 | Number | Maximum packet size for endpoint zero. 
ег capa specifications оп (йге Packet- (Only 8, 16, 32, and 64 are valid.) 
interfaces and the interfaces may not Sie 
operate independently йе. a CD-ROM з [мо | 2 [р Vendor ID (assigned by USB). 
device with audio and digital data inter- 
facas that equire tranaport совой to 10 | Роба | 2 |D Product ID (assigned by manufacturer). 
фа CDs or start them арбан). 12 | Device 2 |вср Device release number їп binary-coded 
I£ this field is set to FFh the device class дыме 
is vendor specific. 14 | Manu- 1 | пах | Index of string descriptor describing 
5 [рем 1 | Subclass | Subclass code (assigned by USB) if the = sae 
се- ubclass с gn 
Subclass field does not have a value of FFh 15 Product 1 Index Index of product string descriptor. 
16 | Serial- 1 Гаек | Index of string descriptor describing the 
These codes are qualified by the value of Number device's serial number. 
the DeviceClass field. If the DeviceClass 
Bali іѕ тезе! to zaro, this Веја тиз! alan 17 Num- К 1 Number | Number of possible configurations. 
be reset to zero. тай = 


图 7-131 USB Function 设 备 的 对 应 的 描述 体 中 的 项 目 和 介绍 (1) 
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号 会 被 Hub 发 向 所 有 已 经 Enable 的 端口 ， 由 于 此 时 Hub ”个 端口 ， 向 全 0 的 USB 地 址 的 EP0 发 送 配 置 读 请 求 

本 身 的 地 址 已 经 不 是 全 0， 所 以 Hub 知 道 本 消息 并 不 是 。 时 Hub 和 刚才 那个 USB Function 设 备 都 可 以 接收 到 该 信 
发 给 自己 的 ， 自 然 会 忽略 。 这 样 ， 被 放 开 的 那个 端口 ” 号 ,但 是 它 俩 的 地 址 已 经 不 是 全 0 了 ， 所 以 忽略 。 就 这 
就 会 接收 到 该 信息 ， 从 而 重复 上 述 的 步骤 ， 完 成 设备 。 样 ，Host 端 给 整个 USB 网 络 中 的 所 有 设备 一 个 一 个 分 
的 地 址 分 配 和 配置 过 程 。 然 后 ，Host 端 程序 再 放 开 一 。” 配 好 地 址 并 配置 好 。 


Interface Descriptor Definition 
оюм] naa Size Value Description 
фуга 
Configuration Descriptor Definition ° | пећ т | Number | Stze of this descriptor in bytes 
Offset | Field Name Size Value Description 1 | Descriptor- 1 Constant | Interface descriptor type = 0th. 
(bytes) Луре 
2 | interface- т | Number — | Number of interface. Zero-based value identif 
0 | Length 1 Number | Size of this descriptor in bytes. теча Бареа ера аортаны 
1 | рехиропуре | 1 0? | Configuration value = 02h. ported by this configuration. 
3 | Лиме т | Number — | Value used to select alternate setting for the inter- 
2 | TotalLength 2 | Number | Total length of data returned for this config- 
uration. Includes the combined length of all Saing паана барате. 
descriptors (configuration. interface, end- + | NamEnd- 1 | Number | Number of endpoints used by this interface 
point. and class or vendor specific) returned points (excluding endpoint zero). If this value is zero, this 
for this e interface only uses endpoint zero. 
4 | Numlnterfaces 1 Number | Number of interfaces supported by this con- $ | interface- 1 Сва Class code (assigned by USB). 
figuration. 1 this feld is reset to zero, the interface does not 
$ | Configuration- | 1 | Number | Value to use as an argument to Set Configu- belong to any USB specified device class. 
hame а Да ЈЕ паши Им neld is set to OxFF, the interface class В ven- 
6 | Configuration n Index | Index of string descriptor describing this dor specific. All other values are reserved for 
ый configuration. = Е аза 
7 | Attributes 1 | Bitmap | Configuration characteristics ° | шеке 1 | Subclass | Subclass code (assigned by USB) These codes are 
Subclass qualified by the value of the InterfaceClass field. 
D7 Reserved (must be set to 1) 
(Виз Ромеге іп 12) И the InterfaceClass Пе is reset to zero, this field 
is sanu must also be reset to zero. I the InterfaceClass field 
05 Remote Wakeup is not set to OxFF, all values are reserved for assign- 
040 Reserved (reset t00) иши 
7 | пећке 1 | Protocol | Protocol code (assigned by USB). These codes are 
А device configuration that uses power Protocol qualified by the value of the InterfaceClass and the 
from the bus and a local source must have a Пива бей» и ан трата 
non-zero value in the MaxPower field. Class specific requests, this code identifies the pro- 
tocols that ће device uses ав defined by the ресі. 
Ша device configuration supports remote cation of the device class. 
мир, 058 00 о се (1) f field is reset zero, the device does not usea. 
ав» speclfic protocol on this Interface. If this field 
аи Еж ие 
ration when the device is fully operational. ней 
Expressed in 2 ma units (Le.. 50 = 100 та). в | eee 1 | оде Index of string descriptor: 
图 7-132 USB Function 设 备 的 对 应 的 描述 体 中 的 项 目 和 介绍 (2) 
Endpoint Descriptor Definition 
Offset Field Size | Value Description 
MaxPacketSize | 2 | Number | Maximum packet size this endpoint 15 
Endpoint Descriptor Definition capable of sending or receiving when this 
configuration is selected. 
Offset Field Size | Value Description 
For isochronous endpoints, this value is 
о | Length т | Number | Size of this descriptor in bytes. used to reserve the bus time required for 
the per frame data payload. The pipe may 
1 | DescriptorType | 1 | Constant | Endpoint descriptor type = 058. use less bandwidth than reserved. The 
device reports, if necessary, the actual 
2 | EndpointAd- 1 | Endpoint | The address of the endpoint on the USB айный und va noms mean UIB 
dress device described by this descriptor. The дайтадан. 
address is encoded as follows: 
Definition of bits: 
Bit 0:3 the endpoint number Bits 100 Maximum packet size 
Bit 4:6 reserved, reset to zero Bits 1211 Add transactions/uframe 
Bit7 direction, ignored for Control 00 None (1 transaction /uframe) 
endpolats 01 1 additional transaction 
0 = OUT endpoint 10 2 additional transactions 
1= IN endpoint E aens 
Bits 15:13 Reserved (must be zero) 
з | Attributes 1 | Bitmap | This field describes the endpoint's T T шш g >T ra 
attributes when it is configured using the 5 Й Ст == ние 
ConiigurationVskus, 125psecond units. (Used for 1.x devices 
and 2.0 devices except as defined below) 
Bits 01 Transfer Туре 
00 Control FS/HS isochronous endpoints define poll- 
(1 Isochronous ing intervals via the formula: 
10 Bulk He ышк ыы ea valus or 1. 
11 Interrupt 16, yielding a polling interval of 1 to 
32.788ms. 
Bits&2 Synchronization Туре 
No Synchronization imen pamai ngel ћи 
polling interval is any integer value 
0 Asynchronous Бае 
по wauu HS interrupt endpoints use the formula: 
Blts 5:4 UsageType gbimerval-1 Where binterval = 1 to 16 
00 Data 
HS bulk and control OUT endpoints 
Пра define blnterval as the maximum NAK 
10 Implicit feedback rate of the endpoint. blnterval specifies 
11 Reserved the number of pframes/NAK (0-255). А. 
value of 0 means the EP never issues a 
Bits 76 Reserved (must be zero) NAK handshake, 


图 7-133 USB Function 设 备 的 对 应 的 描述 体 中 的 项 目 和 介绍 (3) 


有 大话 计算 机 一 一 计算 机 系统 底层 架构 原理 极限 剖析 


那么 ， 假 设 有 一 个 新 的 USB 设 备 被 热 插入 到 了 系 
统 中 ，Host 端 程序 如 何 知道 这 件 事 ? USB 设 备 无 法 向 
上 游 部 件 发 送 中 断 信号 ， 因 为 为 了 降低 系统 硬件 设 
计 复杂 度 ，USB 网 络 中 不 存在 中 断 这 个 概念 。 不 使 用 
中 断 ， 就 必须 在 Host 端 采用 程序 不 断 来 轮 询 方式 (在 
7.1.1 节 中 介绍 过 ) 。 那 么 ，Host 端 设备 管理 程序 定时 
就 要 把 USB 网 络 中 所 有 Hub 上 的 所 有 Port Status 寄 存 器 
都 读 出 并 探测 其 状态 ， 这 样 做 不 现实 ， 会 浪费 大 量 总 
线 带 宽 。 人 们 采用 另外 一 种 方法 来 做 这 件 事 。 

如 图 7-134 所 示 ， 在 Hub 内 部 ， 新 设置 一 个 称谓 
Status Change Register， 该 寄存 器 本 质 上 是 一 个 位 图 
(Bitmap) ， 每 一 位 对 应 一 个 端口 状态 。 然 而 该 寄存 
器 并 不 记录 所 有 端口 的 具体 状态 ， 而 仅仅 记录 所 有 端 
口 的 变化 情况 ， 只 要 一 个 端口 的 状态 发 生 了 变化 ， 比 
如 热 插 入 、 热 拔 出 、 电 流 过 载 等 ， 那 么 Hub 在 感知 到 
变化 后 ， 将 对 应 的 信息 记录 在 该 端口 对 应 的 Port Status 
寄存 器 中 ， 然 后 再 将 该 端口 在 Status Change Register 中 
对 应 的 位 置 为 1。Host 端 设备 管理 程序 只 需要 不 断定 
时 来 扫描 该 寄存 器 的 值 ， 就 可 以 知道 具体 是 哪个 端口 
变化 了 ， 从 而 再 向 EP0 发 请 求 读 出 对 应 的 Port Status 寄 
存 器 即 可 。 这 样 ，Host 端 读 出 的 数据 量 会 变 得 很 小 。 

实际 中 ，Hub 将 这 个 Status Change Register 映 射 到 
了 一 个 新 的 EP 上 《如 图 7-134 中 的 EP1) 。 其 实 ， 理 论 
上 可 以 通过 EP0 来 访问 该 寄存 器 。 之 所 以 新 设置 一 个 
EP1， 是 因为 Host 端 访问 这 个 寄存 器 的 频 度 比较 高 ， 
而 且 要 求实 时 性 比较 强 ， 插 入 一 个 USB 设 备 之 后 要 求 
尽快 被 系统 发 现 到 。 而 前 文中 提 到 过 ， 由 于 Host 端 程 
序 发 送 的 数据 包 是 争 抢 同 一 个 USB 主 控制 器 来 发 送 
的 ， 这 就 会 产生 一 个 均衡 问题 。 如 果 某 个 USB 设 备 占 
用 的 流量 非常 高 ，USB 主 控制 器 忙于 传输 这 些 数据 ， 
那么 轮 询 每 个 Hub 上 的 Status Change Register 的 请 求 可 
能 就 会 迟 迟 得 不 到 发 送 。 为 此 ， 需 要 有 区 别 地 对 待 访 
问 每 个 USB 设 备 上 的 每 个 EP 的 请 求 ， 那 就 需要 区 分 不 


同 的 EP 流 量 。 

USB 将 EP 划 分 为 了 4 大 类 : 用 于 传输 控制 命令 / 数 
据 的 EP (Control EP， 固 定 为 EBP0， 每 个 设备 有 且 只 
有 一 个 ) 、 用 于 传输 需要 快速 响应 的 命令 /数据 的 EP 
(Interrupt EP) 、 用 于 传输 大 批量 数据 的 EP (Bulk 
ЕР) 、 用 于 传输 流 媒 体 等 实时 性 强 且 允 许 丢 数据 或 者 
数据 校 验 出 错 的 EP (Isochronous ЕР) 。 或 者 更 抽象 地 
将 上 述 几 个 EP 类 型 称 为 : 控制 传输 通道 、 中 断 传输 通 
道 、 批 量 传输 通道 以 及 同步 传输 通道 。 其 中 同步 传输 
通道 又 被 称 为 等 时 传输 通道 ， 对 应 英文 为 isochronous。 
不 要 被 “中 断 ” 二 字 所 迷惑 ， 其 之 所 以 称 为 中 断 通 
道 ， 就 是 要 意味 着 凡是 发 往 该 EP 的 命令 /数据 都 必须 得 
到 快速 响应 ， 就 如 同 传统 的 中 断 处 理 过 程 一 样 ， 而 该 
EP 实际 上 并 不 发 出 中 断 信号 。 同 理 ， 凡 是 发 往 同 步 /等 
时 传输 通道 EP 的 数据 ， 必 须 保证 其 享有 均衡 的 被 USB 
主 控 从 主 存 中 取出 并 发 送 到 USB 网 络 中 的 概率 。 

USB 主 控 遇 到 发 往 中 断 EP 的 数据 包 ， 必 须 尽 快 发 出 
去 不 能 耽误 太 久 ; 遇 到 发 往 同步 EP 的 数据 包 则 需要 尽量 
均衡 (比如 每 隔 等 长 的 一 段 时 间 ， 即 等 时 ) 发 送出 去 ， 
这 样 流 媒 体 用 户 才 不 会 感觉 时 断 时 续 。 这 种 流量 区 分 
技术 被 统称 为 服务 质量 (Quality of Service, QoS) „ JE 
么 ， 如 何 保证 USB 主 控 针对 不 同类 型 的 EP 的 流量 采用 不 
同 的 发 送 QoS 保障 呢 ? 下 一 节 中 再 详细 介绍 。 

除了 控制 通道 必须 固定 为 EP0 之 外 ， 其 他 类 型 
的 通道 可 以 任意 绑 定 ， 比 如 EP1/5/8 为 批量 通道 ， 
EP2/3/7 为 中 断 通道 ，EP9 为 同步 通道 。 另 外 ，EP0 为 
双向 的 通道 ， 其 他 类 型 的 EP 均 为 单 向 通道 。 也 就 是 
说 ，Host 端 程序 可 以 向 EP0 写 入 数据 ， 也 可 以 发 送 命 
令 要 求 EP0 返 回 数据 。 而 对 于 其 他 类 型 的 某 个 EP， 比 
如 EP1，Host 端 要 么 只 能 向 其 写 入 数据 ， 要 么 只 能 要 
求 它 返回 数据 ， 而 不 能 一 会 向 其 写 入 数据 ， 完 成 后 又 
让 它 读 出 数据 返回 。 也 就 是 说 ，EP0 为 半 双 工 模式 ， 
其 他 EP 均 为 单 工 模式 。 
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图 7-134 Hub 内 部 模块 结构 和 作用 


单 工 模式 ， 即 数据 只 能 从 一 个 方向 发 送 到 另 一 
个 方向 。 双 工 模式 下 ， 数 据 可 以 从 任何 一 方 发 向 另 
一 方 。 双 工 又 分 两 种 。 同 一 个 时 刻 只 能 够 往 一 个 方 
向 发 送 ， 此 为 半 双 工 。 同 一 个 时 刻 双 方 可 以 既 接收 
又 发 送 (意味 着 至 少 有 两 个 链 路 一 收 一 发 ) ， 此 为 
全 双 工 。 


既然 EP0 之 外 的 所 有 EP 都 是 单 向 的 ， 那 为 何 一 个 
U 盘 可 以 同时 读 出 和 写 入 数据 ?你 可 以 在 设计 该 U 盘 
内 部 控制 器 时 放置 两 个 批量 传输 EP， 但 是 让 一 个 只 
读 出 数据 ， 让 另 一 个 只 写 入 数据 啊 。 在 USB 设 备 的 
Endpoint Descriptor 描 述 体 中 ， 对 应 的 字段 记录 了 对 应 
EP 的 类 型 以 及 数据 传输 的 方向 ， 请 参考 图 7-133 中 对 
应 字段 的 描述 。 每 个 EP 可 选 方向 有 3 种 ，EP0 只 能 是 
双向 的 ， 其 他 EP 的 方向 可 以 为 OUT (数据 从 Host 写 入 
设备 ) 或 者 IN 〈 数 据 从 设备 读 出 发 向 Host) 。 

USB 设 备 可 以 根据 自身 需要 设立 任意 数量 (不 
超过 16 个 ) 、 任 意 类 型 的 EP。 比 如 USB 大 容量 存储 
设备 〈U 盘 、USB 移 动 硬盘 等 ) 内 部 必然 会 有 OUT 方 
向 的 Bulk EP 和 IN 方 向 的 Bulk EP 至 少 各 一 个 ，USB 摄 
像 头 设备 至 少 会 有 一 个 IN 方向 的 Isochronous ЕР, `4 
然 如 果 你 的 摄像 头 是 高 图 像 质 量 的 ， 也 可 以 不 采用 
Isochronous EP。 鼠 标 、 键 盘 这 种 人 机 交互 设备 ， 要 求 
快速 响应 ， 那 必须 至 少 有 一 个 IN 方向 的 Interrupt EP， 
这 样 ，USB 设 备 驱 动 程序 不 断 地 轮 询 这 个 EP， 从 而 获 
取 对 应 寄存 器 中 的 状态 信息 。 


那么 说 ， 目 前 的 USB 接 口 的 筷 标 和 键盘 设备 ， 

都 无 法 使 用 中 断 触 发 的 方式 来 传送 数据 ， 而 都 是 依 
赖 USB 设 备 主 控 不 断 轮 询 来 获取 数据 的 ? 是 的 。 不 
仅 是 和 鼠标 和 键盘 ， 任 何 USB 设 备 无 法 主动 发 出 中 断 
信和 号/ 请求，USB 并 没有 定义 类 似 PCIE 使 用 的 INTx 
中 断 消息 。 但 是 这 并 不 意味 着 Host 端 的 USB 主 控制 
器 也 无 法 发 出 中 断 。USB 饼 标 驱 动 会 向 USB 主 控制 
器 驱动 下 发 一 个 请 求 ，USB Bus Driver ( USB Core 
Driver ) 与 USB 主 控 驱 动 会 根据 这 个 请 求 中 所 定义 
的 轮 询 时 间 间 隔 将 这 个 请 求 转 搁 为 USB 网 络 底 层 消 
息 并 按照 精细 算出 的 策略 将 这 些 USB 消 息 派发 到 主 
控 对 应 的 不 同 发 送 队列 中 等 待 执行 。 这 样 就 可 以 
定期 拿 到 鼠标 的 相对 坐标 等 数据 传送 给 USB 主 控制 
器 。USB 主 控制 器 向 主 存 中 的 Completion Queue 中 
写 入 一 笔 IO 请 求 的 结果 后 ， 依 然 需要 中 断 CPU， 跳 
转 到 中 断 服务 程序 处 理 ， 调 用 对 应 USB 设 备 的 驱动 
程序 的 中 断 Handler 来 处 理 ( 该 Handler 的 指针 其 实 
被 登记 在 了 当初 下 发 的 请 求 里 ) ， 中 断 handler 此 时 
需要 再 次 下 发 一 个 请 求 ， 这 样 就 可 以 源源 不 断 的 让 
USB 主 控 按 照 对 应 间隔 向 鼠标 发 送 USB 消 息 。 
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我 们 再 回 到 上 一 层 思维 中 ，Hub 中 的 EP1 的 类 型 
为 中 断 型 ， 方 向 是 IN 方向 ， 其 后 方 对 应 的 是 Status 
Change Register。 具 体 的 ，Host 端 的 程序 对 该 USB 设 
备 的 EP1 发 送 读 指 令 ， 该 指令 被 EP1 接 收 ，Hub 中 的 微 
控制 器 处 理 该 指令 ， 并 将 Status Change Register 中 的 内 
容 返 回 。 请 注意 ， 虽 然 该 EP 方向 为 IN (只 能 由 设备 发 
送 给 Host) ， 但 这 并 不 意味 着 Host 不 能 给 该 EP 发 送 命 
$, 命令 是 可 以 发 送 的 ， 但 是 数据 是 不 会 发 送 的 。 下 
面 我 们 来 深究 一 下 USB 网 络 中 具体 的 数据 传送 方式 。 


7.4.2.3 USB 网 络 协议 栈 


与 PCIE 设 备 类 似 的 是 ， 针 对 每 个 USB 设 备 ， 必 
须 开 发 对 应 的 设备 驱动 程序 ， 该 驱动 程序 向 上 层 协 
议 栈 注 册 对 应 的 handler 函 数 以 便 从 上 层 接 收 对 应 的 数 
据 。 比 如 ，USB 网 卡 的 Device Driver 一 样 需要 向 TCP/ 
JP 协议 栈 的 下 层 接口 对 应 的 数据 结构 中 写 入 自己 这 边 
的 handler 函 数 的 入 口 地 址 ， 从 而 上 层 每 产生 对 应 的 以 
太 网 帧 后 ， 便 可 以 调用 该 handler， 将 以 太 网 帧 的 指针 
或 者 盛 放 以 太 网 帧 的 队列 队 首 指针 传递 给 handler， 
handler 自 己 去 队列 中 取出 数据 ， 然 后 发 往 下 层 。 

但 是 ， 拿 到 数据 的 handler 在 把 数据 往 下 层 发 送 
时 ，USB 与 PCIE 有 了 较 大 的 区 别 。PCIE 设 备 的 Device 
Driver 会 直 将 该 数据 指针 记录 到 IO Descriptor 中 ， 并 
附 上 一 些 其 他 的 命令 控制 信息 ， 然 后 将 MO Descriptor 
压 入 Send Queue 中 ， 并 将 新 的 队 首 指针 直接 写 入 PCIE 
设备 的 寄存 器 。 而 USB 设 备 的 Device Driver， 由 于 无 
法 直接 看 到 USB 设 备 ， 所 以 只 能 委托 USB 主 控制 器 来 传 
送 数据 ， 委 托 书 的 内 容 应 该 是 这 样 的 : “请 帮忙 把 这 段 
数据 ， 用 某 某 方 式 ， 传 递 到 地 址 为 某 某 的 USB 设 备 的 某 某 
端点 上 。” 该 委托 书 ， 也 会 被 描述 在 一 个 IO Descriptor 
中 ， 但 是 该 Descriptor 需 要 被 传送 到 USB 主 控制 器 而 
不 是 USB 设 备 。USB 主 控 拿 到 委托 书 ， 根 据 委托 书 用 
DMA 的 方式 拿 到 数据 ， 然 后 再 将 数据 通过 USB 网 络 传 
送 给 对 应 地 址 的 USB 设 备 。 那 么 ，USB Device Driver 是 
不 是 可 以 直接 像 PCIE Device Driver 那 样 把 Descriptor 队 
列 的 队 首 指针 写 入 到 USB 主 控制 器 的 相关 寄存 器 中 ， 
来 通知 后 者 从 主 存 中 获取 委托 书 呢 ? 不 妥 ! 这 也 不 
Ж? 事情 的 复杂 性 可 能 超过 了 你 的 想象 。 

每 个 PCIE 设 备 只 有 一 个 设备 驱动 和 它 通 信 ， 而 
USB 主 控 则 代表 了 它 后 面 多 个 USB 设 备 和 多 个 不 同 的 
USB 设 备 驱 动 来 通信 ， 如 果 任 何 一 个 USB 设 备 驱 动 都 
去 直接 操控 USB 主 控 的 寄存 器 ， 这 就 乱 套 了 。 这 就 像 
两 个 司机 驾驶 一 个 车 一 样 ， 你 踩 油 门 时 候 他 踩 了 刹 
车 ， 你 没 踩 离合 他 却 在 尝试 换 挡 。 可 能 传送 一 笔 O 
请 求 需要 多 步 操作 ， 且 不 能 被 打 断 ， 结 果 现 在 多 个 设 
备 驱动 同时 尝试 写 入 USB 主 控 寄 存 器 ， 那 就 有 可 能 相 
互 乱入 最 终 出 错 。 

即便 可 以 采用 一 些 互 斥 锁 的 方式 来 防止 不 同 设 
备 驱动 同时 操作 USB 主 控 ， 但 是 性 能 将 会 变 差 。 而 且 
这 也 不 利于 松 耦 合 的 开发 方式 ， 因 为 每 个 开发 USB 设 


有 可 大 话 计算 机 一 一 计算 机 系统 底层 架构 原理 极限 剖析 


备 驱 动 的 程序 员 还 要 顺带 了 解 USB 主 控制 器 的 寄存 器 
操作 方式 ， 花 大 量 时 间 阅 读 学 习 USB 主 控制 器 的 寄存 
器 手册 、 编 程 手册 。 这 是 完全 没 必 要 的 。 操 作 USB 主 
控 的 寄存 器 ， 交 给 一 个 单独 的 程序 来 完成 就 好 ， 所 
有 的 USB 设 备 驱 动 ， 都 使 用 统一 的 接口 与 这 单个 程序 
进行 对 接 就 好 。 这 个 程序 ， 毫 无 疑问 ， 应 该 是 USB 主 
控制 器 的 驱动 程序 ， 我 们 称 其 为 USB Host Controller 
Driver， 简 称 Host Driver。 这 里 ，Host 并 不 是 主机 、 服 
务 器 的 意思 ， 而 是 承接 人 、 总 包 人 、 拥 有 者 、 主 管 人 
的 意思 ， 意 即 USB 主 控制 器 将 其 后 面 一 堆 USB 设 备 接 
入 了 系统 中 。 

也 就 是 说 ， 让 上 层 的 多 个 不 同 USB 设 备 的 Device 
Driver， 与 Host Driver 对 接 传 递 Descriptor 就 可 以 了 。 对 
接 的 方式 可 以 是 各 种 形式 ， 比 如 每 个 Device Driver 将 
各 自 的 IO Descriptor 委 托 书写 入 各 自 的 队列 ， 然 后 Host 
Driver 从 所 有 这 些 队 列 中 取出 委托 书 并 执行 。 还 稍 有 不 
R! 事情 远 比 你 想象 的 要 更 复杂 一 些 。 多 个 USB 设 备 
共用 一 个 USB 主 控 接 入 ， 这 需要 考虑 QoS 问题 。 前 文 
中 提 到 过 ， 之 所 以 搞 出 4 种 不 同 的 EP， 就 是 为 了 实现 
QoS， 要 求实 时 响应 的 鼠标 和 键盘 、 要 求 大 数据 量 传 
输 的 U 盘 移动 硬盘 、 要 求 不 卡 顿 恒定 数据 流传 输 的 流 
媒体 设备 ， 它 们 共同 争 抢 同一 个 USB 主 控制 器 传输 数 
据 ， 而 且 USB 设 备 不 能 主动 发 起 数据 传输 ， 而 只 能 等 
待 上 层 驱 动 程序 主动 发 命令 读 写 对 应 的 EP， 那 么 就 要 
求 USB 主 控制 器 能 够 均等 地 、 各 取 所 需 地 轮流 发 送 针 
对 每 个 USB 设 备 的 访问 请 求 。 这 是 如 何 做 到 的 呢 ? 

解决 QoS 问题 的 关键 ， 就 是 队列 。 如 果 队 列 只 有 
一 个 ， 所 有 请 求 都 塞 向 其 中 ， 而 又 没有 重 排列 机 制 的 
话 ， 那 QoS 就 无 法 实现 ， 比 如 某 个 中 断 类 EP 传 输 请 求 
被 排 到 了 队 尾 ， 那 你 会 感觉 到 键盘 打字 响应 速度 无 法 
忍受 。 所 以 ， 对 队列 中 的 请 求 按照 特定 的 QoS 算法 重 
排列 ， 是 实现 QoS 的 一 种 方式 。 另 外 ， 还 记得 前 文中 
多 次 介绍 过 的 VC (虚拟 通道 ) 概念 么 ? 每 个 VC 其 实 
就 是 一 个 单独 的 队列 ， 也 就 是 说 ， 将 所 有 请 求 分 拨 到 
多 个 不 同 队列 中 ， 给 每 个 队列 设置 一 个 优先 级 ， 执 行 
请 求 的 时 候 ， 按 照 一 定 的 权重 比例 ， 花 费 更 多 的 时 间 
到 高 优先 级 队列 中 提取 请 求 执行 ， 这 就 是 所 谓 加 权 多 
队列 。VC 之 所 以 称 为 VC， 是 因为 所 有 的 请 求 在 物理 
上 可 以 使 用 同一 片 存储 器 来 存储 ， 但 不 是 真 的 物理 上 
放置 多 片 存储 器 作为 多 个 队列 分 别 存储 ， 而 在 存储 器 
中 开辟 一 块 空间 用 于 放置 多 个 指针 队列 ， 高 优先 级 指 
针 队 列 中 的 指针 指向 的 都 是 高 优先 级 的 请 求 ， 想 发 送 
一 条 高 优先 级 请 求 ， 先 到 指针 队列 中 队 首 提取 指针 ， 
到 指针 指向 的 地 方 拿 到 请 求 并 发 送 。 这 就 是 所 谓 虚拟 
通道 的 含义 。 

而 USB 主 控制 器 的 做 法 ， 也 是 在 Host 主 存 中 开 
辟 多 个 指针 对 列 ， 但 是 却 并 没有 将 这 些 队 列 分 三 六 九 
等 ， 所 有 队列 一 视 同仁 。 每 个 队列 中 的 请 求 ， 只 执行 1 
ms 的 时 间 ， 时 间 到 了 其 中 尚未 执行 完 的 请 求 便 不 再 执 
行 ， 而 是 转 到 下 一 个 队列 继续 执行 1 ms 的 时 间 ， 所 有 


的 队列 轮流 执行 。 那 么 ， 这 样 与 所 有 请 求 都 在 一 个 队列 
中 依次 执行 有 什么 区 别 么 ? 的 确 没 有 区 别 ， 它 们 是 一 样 
的 。 但 是 ， 如 果 上 层 的 程序 能 够 得 到 机 会 将 某 个 USB 
设备 的 请 求 ， 或 者 将 某 个 EP 类 型 《比如 中 断 型 EP) 的 
请 求 ， 往 每 个 队列 中 多 放 一 些 ， 那 么 其 占用 通道 带宽 
的 比例 就 会 增 大 ， 也 就 能 得 到 更 多 传输 机 会 。 这 个 请 
求 调度 的 工作 ， 由 USB 主 控制 器 的 Host Driver 来 负责 。 
提示 * 

USB 主 控制 器 内 部 会 使 用 计时 器 来 精确 控制 ， 
每 隔 1 ms 便 和 触发 其 内 部 的 固件 程序 跳 转 到 从 Host 
主 存 中 的 下 一 个 队列 中 取出 请 求 传送 ， 上 一 个 队 
列 中 未 执行 完 的 请 求 会 放弃 执行 ， 等 待 再 轮回 到 该 
队列 时 ， 重 新 执行 之 前 未 执行 完 的 请 求 。 通 常 可 以 
这 么 做 : 每 个 队列 的 首 地 址 指针 、 每 个 队列 当前 
执行 到 的 请 求 指针 ， 都 将 记录 在 USB 主 控制 器 相 
关 的 寄存 器 中 ， 前 者 用 于 让 USB 主 控 知 道 每 个 队 
列 在 Host 主 存 中 的 基地 址 位 置 ， 后 者 让 USB 主 控 知 
道上 一 次 执行 到 该 队列 中 的 哪 一 条 请 求 了 。USB 主 
控制 器 的 驱动 程序 ( Host Driver ) 在 初始 化 USB 主 
控 时 ， 需 要 向 内 存 管理 程序 申请 对 应 的 空间 用 于 存 
放 这 些 队 列 ， 申 请 好 之 后 再 将 这 些 队列 指针 写 入 到 
USB 主 控 相 关 寄 存 器 中 保存 。 用 队列 方式 执行 IO 
请 求 的 细节 我 们 在 7.1.5 节 中 已 经 详细 介绍 过 。 然 
而 ， 实 际 上 人 们 采用 了 另外 一 种 方式 ， 将 队列 中 
所 有 的 IO Descriptor 形 成 一 个 链表 (Linked List, 
见 PCIE Capability 结 构 ， 那 就 是 个 链表 ) ， 也 就 是 
在 当前 IJO Descriptor 中 给 出 下 一 个 IO Descriptor 的 
指针 ， 这 样 ，USB 主 控 拿 到 了 当前 IO Descriptor B 
然 就 会 知道 下 一 个 Descriptor 要 去 哪里 拿 ，USB 主 控 
制 器 会 从 当前 IJO Descriptor 中 提取 出 这 个 指针 保留 
在 内 部 寄存 器 中 以 便 下 次 使 用 。 


看 来 ， 上 述 机 制 已 经 可 以 支撑 整个 数据 路 径 了 。 我 
们 来 梳理 一 下 : USB Function 设 备 的 驱动 程序 (Device 
Driver) 负责 从 系统 上 层 的 协议 栈 或 者 应 用 程序 接收 要 
传送 的 数据 ， 比 如 以 太 网 帧 、SCSI 指 令 、 音 频 视 频 等 ， 
然后 调用 USB 主 控制 器 的 驱动 程序 (Host Driver) 的 对 
应 API 函 数 ， 调 用 时 给 出 本 次 传送 的 USB 设 备 地 址 、EP 
号 、 要 传送 数据 在 主 存 中 的 位 置 指针 和 长 度 ， 以 及 其 他 
参数 。Host Driver 判 断 该 请 求 的 EP 类 型 、 传 送 长 度 等 信 
息 ， 然 后 按照 对 应 的 QoS 规则 ， 将 该 请 求 压 入 某 个 发 送 
队列 中 ， 并 更 新 该 队列 的 队 首 指针 到 USB 主 控制 器 的 相 
关 寄 存 器 。 不 妥 不 妥 ! ЖЖЖ! 

一 个 可 靠 可 控 的 通信 系统 ， 无 一 例外 底层 都 是 
要 将 数据 分 隔 成 小 片 来 传递 的 ， 也 就 是 有 一 个 链 路 
MTU 的 概念 ， 其 原因 在 7.3.1 节 已 经 介绍 过 了 。 如 果 上 
层 发 送 的 数据 包 尺 寸 过 大 ， 其 就 需要 被 切 分 成 合适 的 
切片 。USB 体 系 规定 ， 控 制 型 〈 传 往 EP0 的 ) 数据 包 
最 长 为 64 字 节 ， 批 量 型 数据 包 最 长 512 字 节 ， 中 断 型 


数据 包 最 长 1024 字 节 ， 同 步 /等 时 型 数据 包 最 长 1024 
字 节 。 而 且 ， 每 一 个 数据 切片 必然 要 附 上 一 些 包 头 控 
制 信息 ， 这 在 一 切 可 靠 通信 中 都 已 经 是 基本 路 数 了 。 
那 就 意味 着 ， 上 层 数据 必须 被 切 分 好 成 对 应 的 切片 之 
后 ， 才 能 让 USB 主 控 发 送 。 这 与 以 太 网 的 做 法 是 类 似 
的 ， 也 就 是 先 准备 好 以 太 网 帧 ， 贴 上 源 和 目标 MAC 
头 ， 才 能 让 PCIE 接 口 的 以 太 网 控制 器 直接 到 主 存 中 
DMA 拿 走 要 发 送 的 帧 。 对 于 USB 网 卡 ， 准 备 以 太 网 
帧 这 件 事由 上 层 协 议 栈 负责 ， 生 成 的 以 太 网 帧 长 度 在 
1.5KB 左 右 ， 这 显然 大 于 上 述 的 USB 数 据 包 尺寸 ， 所 
以 其 必须 切片 。 

切片 的 动作 该 由 谁 来 做 呢 ? 谁 做 都 可 以 ，USB 
Device Driver 做 也 是 比较 合适 的 。 但 是 请 注意 ， 计 算 
机 中 可 能 有 大 量 的 USB 设 备 ， 比 如 笔记 本 电脑 的 键 
盘 、 触 摸 板 、 摄 像 头 、 蓝 牙 等 设备 其 实 都 是 接 入 USB 
总 线 的 。 如 果 所 有 这 些 设备 的 驱动 程序 都 各 自负 责 切 
片 ， 那 驱动 程序 开发 者 的 负担 将 会 加 重 ， 需 要 学 习 对 
应 的 规则 。 另 外 一 个 更 加 重要 的 原因 是 ， 如 果 上 层 
Device Driver 负 责 切片 的 话 ， 这 不 容易 受 控制 ， 也 就 
是 这 些 程序 员 估计 都 会 按照 USB 规 定 的 最 大 数据 包 长 
度 来 切片 ， 谁 不 想 自己 的 设备 在 系统 中 多 占用 一 些 带 
宽 呢 ? 或 者 ， 数 据 被 切 得 乱七八糟 ， 毫 无 章法 ， 这 样 
就 不 利于 灵活 地 进行 QoS 带宽 均衡 分 配 了 。 所 以 ， 这 
件 事 还 得 交 给 额外 单独 的 一 个 角色 统一 进行 ， 即 交 给 
USB 主 控 的 Host Driver 驱 动 来 处 理 。 既 然 它 同时 负责 
将 这 些 数 据 包 调度 到 不 同 的 队列 中 ， 那 顺手 把 切片 的 
事情 也 做 了 吧 。 不 妥 不 妥 ! 这 也 不 行 ! 

USB 主 控 的 Host Driver 会 说 : 不 好 意思 ， 这 事情 
我 不 擅长 啊 ， 我 只 是 个 收发 员 而 已 ， 也 就 是 上 层 给 我 
什么 我 就 负责 发 送 什么 ， 以 我 的 智商 ， 充 其 量 也 就 能 
设置 好 邮箱 〈 在 主 存 中 申请 队列 空间 ) 并 管理 它们 ， 
负责 与 快递 员 (IO 主 控制 器 ) 沟通 好 每 个 信箱 的 位 
置 、 信 封 的 数量 和 位 置 ， 提 醒 快递 员 过 来 拿 信 ， 等 
等 。USB 让 我 顺带 做 调度 工作 ， 将 不 同人 的 信件 调度 
到 不 同 信箱 中 ， 并 且 保 持 每 个 信箱 内 部 的 信件 不 会 被 
一 个 人 全 给 占 了 ， 单 单 这 件 事 就 已 经 是 难为 我 了 ， 现 
在 还 要 让 我 再 负责 切片 ， 我 抗议 啊 ! 

好 吧 ， 还 有 其 他 合适 的 角色 么 ? 难道 我 们 要 新 
招 一 个 人 专门 负责 切片 ? 仔细 想 一 下 ， 设 备 加 电 之 后 
的 设备 枚 举 和 配置 其 实 也 是 需要 有 一 个 独立 的 程序 来 
完成 的 。 我 们 前 文中 一 直 在 抽象 地 说 “设备 管理 程 
序 ”。 其 实 ， 设 备 管理 程序 并 不 是 一 个 单一 程序 ， 而 
是 由 多 个 程序 组 成 的 ， 比 如 枚 举 PCIE 网 络 的 程序 、 枚 
举 USB 网 络 的 程序 等 ， 当 然 ， 会 有 一 个 总 的 入 口 将 这 
些 子 部 分 串 接 成 一 个 大 的 设备 管理 模块 。 所 以 ，USB 
网 络 枚 举 是 由 单独 的 程序 负责 的 。 那 么 是 否 可 以 将 切 
片 的 工作 也 交 给 这 个 角色 呢 ? Z! 我 们 将 这 个 角色 
命名 为 USB Bus Driver， 将 每 个 切片 命名 为 SB 事务 
(USB Transaction) 。 

如 此 一 来 ， 由 三 个 角色 组 成 的 USB 网 络 协议 栈 ， 
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就 在 Host 主 存 中 成 型 了 。 

@ USB Device Driver。 位 于 最 上 层 的 就 是 USB 
设备 驱动 ， 每 个 USB 网 络 上 的 设备 对 应 一 个 Device 
Driver， 其 负责 向 上 层 协议 栈 注册 挂 接 对 应 的 VO 处 理 
函数 (将 自己 一 侧 函 数 的 指针 填 入 上 层 准 备 好 的 数 
据 结构 中 ) 。 收 到 上 层 下 发 的 数据 后 ， 其 还 需要 负 
责 生成 一 个 描述 结构 ， 也 就 是 任务 书 ， 被 称 为 USB 
Request Block (URB) ， 其 中 包含 该 数据 发 向 的 USB 
设备 地 址 、EP 号 、 数 据 的 位 置 指针 等 信息 。USB 设 备 
驱动 会 调用 USB Виз Driver 相 关 函 数 生成 URB 并 传递 
给 后 者 。URB 在 物理 上 是 位 于 主 存 中 的 结构 体 ， 结 构 
体 相当 于 一 个 小 数据 库 ， 内 中 记录 有 各 种 信息 。 

@ USB Bus Driver。 该 驱动 位 于 USB 设 备 驱 
动 下 方 ， 其 负责 USB 总 线 枚 举 和 热 插 拔 管理 、USB 
设备 属性 维护 和 管理 (通过 EP0 读 出 设备 中 的 各 种 
Descriptor) 、 与 上 层 USB 设 备 驱 动 之 间 对 接 ( 比 如 
提供 usb_alloc_urb() 函 数 供 上 层 调用 以 生成 URB， 
以 及 usb_submit_urb() 函 数 用 于 提交 URB 给 自己 )、 
将 上 层 下 发 的 VO 请 求 做 进一步 切片 处 理 ， 切 片 成 事 
务 。 还 负责 与 USB 主 控制 器 驱动 对 接 ， 将 描述 事务 的 
Descriptor 压 入 USB 主 控 的 发 送 队 列 中 。 

© USB 主 控制 器 驱动 (Host Driver) 。 其 位 于 
最 下 层 ， 其 提供 对 应 的 接口 比如 urb_enqueue() 函 数 供 
上 层 调用 ， 将 上 层 USB Bus Driver 下 发 的 、 切 分 好 的 
ПОЇ (Transaction Descriptor) ， 按 照 一 定 调度 算 
法 〈 被 固化 在 activate_qh() 函 数 中 ) 调度 到 对 应 的 队 
列 中 。 另 外 还 负责 对 USB 主 控 进 行 初始 化 配置 、USB 
主 控 运 行 时 管理 。USB 主 控 从 队列 中 取出 这 些 描述 结 
№, АР, ЗЕНА, ACAR 
的 缓冲 区 将 对 应 的 IO 请 求 转化 为 真正 的 USB 网 络 数据 
包 ， 发 向 USB 网 络 。 

图 7-135 左 侧 所 示 为 上 述 三 层 USB 驱 动 构成 的 USB 
协议 栈 的 全 貌 。 假 设 USB 主 控 本 身 是 一 个 PCIE 设 备 ， 
用 PCIE 网 络 连 接 到 系统 。 加 电 后 ， 首 先 PCI Bus Driver 
对 PCIE 总 线 进行 枚 举 ， 发 现 USB 主 控 这 个 设备 ， 便 加 
载 USB 主 控制 器 的 驱动 (Host Driver) 对 USB 主 控制 
器 进行 初始 化 操作 ， 生 成 对 应 的 队列 并 将 队列 位 置 指 
针 写 入 USB 主 控 寄 存 器 ， 以 及 完成 更 多 其 他 初始 化 操 
作 。 初 始 化 完成 之 后 ，Host Driver 调 用 相关 函数 加 载 
USB Bus Driver， 后 者 便 开 始 扫描 枚 举 USB 网 络 〈 方 
法 上 文中 介绍 过 ) ， 并 将 所 有 发 现 的 USB 设 备 及 其 对 
应 的 各 种 Descriptor 记 录 到 一 张大 的 设备 信息 表 中 。 
USB Bus Driver 调 用 相关 函数 ， 为 每 一 个 发 现 的 USB 
设备 加 载 对 应 的 USB 设 备 驱 动 ， 后 者 向 系统 上 层 的 相 
关 协 议 栈 注 册 一 些 接口 handler 函 数 用 于 接收 上 层 下 发 
的 VO 请 求 ， 同 时 向 系统 中 注册 对 应 的 设备 。 

整个 过 程 可 以 简要 描述 为 : 先 枚 举 PCIE 网 络 认 
到 一 个 PCIE 设 备 ， 一 看 是 USB 主 控 ， 证 明 其 后 方 还 挂 
接着 一 个 USB 网 络 ， 那 就 继续 枚 举 USB 网 络 ， 最 终 发 
现 一 堆 USB 设 备 ， 然 后 加 载 每 个 USB 设 备 的 驱动 。 那 
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么 ， 如 果 某 个 USB 设 备 的 后 方 又 连接 着 另 一 个 某 种 网 
络 ( 比 如 还 是 USB， 或 者 SAS、 以 太 网 等 ) ， 想 继续 
发 现 连接 在 这 些 网 络 上 的 设备 ， 那 就 得 再 加 载 对 应 的 
Bus Driver 对 这 些 网 络 进行 枚 举 ， 然 后 加 载 这 些 网 络 
中 的 设备 驱动 程序 。 

图 7-135 中 右 侧 所 示 的 SAS 通 道 卡 及 其 上 层 的 协 
议 栈 ， 与 USB 本 质 上 是 相同 的 。 只 不 过 ，SAS 是 专用 
于 存储 设备 的 网 络 ， 而 USB 则 是 一 个 通用 设备 网 络 ， 
从 它们 的 名 字 也 可 以 看 出 来 。SAS 设 备 驱动 接收 的 是 
SCSI Request Block (SRB) ， 其 与 URB 本 质 相 同 。 
SAS 网 络 是 高 速 (12Gbit/s) 交换 式 网 络 ， 所 以 其 性 能 
要 远 高 于 USB 网 络 。 但 是 运作 模式 上 两 者 有 着 本 质 的 
相同 之 处 ， 只 在 一 些 细 微 处 有 些 差别 。 我 们 将 在 下 文 
中 介绍 SAS 网 络 的 全 貌 。 


7.4.2.4 USB 网 络 上 的 数据 包 传 送 


如 果 把 每 个 数据 包 作为 Payload， 然 后 贴 上 个 目标 地 
址 帧 头 一 并 传 出 去 ， 这 是 高 速 交 换 式 网 络 的 惯用 路 数 。 
可 是 咱们 USB 体 系 是 个 共享 总 线 ， 大 家 不 分 你 我 ， 在 同 
一 个 广播 域 中 ， 如 果 每 个 数据 包 都 带 上 USB 地 址 、EP 
号 等 ， 这 样 太 浪费 资源 了 。 一 点 小 东西 都 得 找 个 盒子 包 
装 的 像 模 像样 那 是 所 谓 “ 高 雅 ” 人 士 的 做 法 。 咱 们 一 般 
就 用 接地 气 的 方法 :在 网 络 上 喊 一 嗓子 “ 哎 ! xx 地 址 
xxEP! 准备 接收 数据 ”或 者 “ 哎 ! xx 地 址 xxEP! 把 数据 
传 过 来 ”， 这 一 嗓子 ， 所 有 人 都 听 到 了 ， 但 是 无 关 人 员 
会 自动 忽略 后 面 的 数据 ， 因 为 数据 根本 不 是 给 自己 的 。 
只 有 被 喊 到 的 人 准备 接收 数据 或 者 向 外 发 送 数据 。 发 完 
数据 之 后 ， 接 收 方 喊 一 嗓子 : “ 收 到 了 ， 妥 妥 的 ! ”这 
样 会 节省 带宽 ， 地 址 信息 在 这 次 会 话 中 只 传送 了 一 次 ， 
而 不 是 占用 每 个 数据 包 都 贴 上 一 份 。 

上 述 过 程 被 称 为 一 个 会 话 或 者 事务 。 其 与 PCI 体 
系 中 的 事务 是 类 似 的 。 一 次 USB 事 务 包含 三 个 阶段 : 
令 牌 阶段 〈 喊 人 阶段 ) 、 数 据 阶段 、 担 手 阶 段 〈 接 收 
方 确认 ) 。 这 三 个 阶段 ， 各 自 对 应 了 一 种 数据 包 ， 
分 别 为 令 牌 包 、 数 据 包 和 担 手包 。 所 以 请 注意 ， 发 送 
一 次 数据 算 作 一 次 事务 ， 一 次 事务 至 少 需要 至 少 三 个 
数据 包 来 完成 。 那 么 是 不 是 只 要 定义 两 种 事务 就 可 
以 了 : 从 某 个 端点 读数 据 和 向 某 个 端点 写 数据 ? 其 
实 USB 定 义 了 更 多 种 类 型 的 事务 ， 对 应 着 不 同 的 令 牌 
包 ， 这 相当 于 ， 喊 人 的 时 候 要 这 么 喊 : “xx 地 址 xxEP 
请 准备 接收 我 的 控制 ! ”“xx 地 址 xxEP 请 准备 接收 
我 的 数据 ! ”不 同 的 事务 类 型 ， 在 令 牌 包 中 采用 PID 
(Packet ID) 字段 的 不 同 值 加 以 区 分 。 事 务 类 型 共有 
4 种 : 用 于 Host 发 起 配置 读 写 请 求 的 SETUP 事 务 、 用 
于 Host 发 起 读 设备 数据 的 IN 请 求 、 用 于 Host 发 起 向 设 
备 写 入 数据 的 OUT 请 求 ， 以 及 Start of Frame (SoF) 
请 求 。SoF 请 求 后 文中 介绍 。 

如 图 7-136 所 示 为 一 个 典型 事务 中 的 三 个 数据 包 
示意 图 。 令 牌 包 中 包含 本 次 事务 的 类 型 PID 字 段 (8 
位 )、 目 标 USB 设 备 地 址 (7 位 )、 目 标 EP 号 (4 


位 ，， 以 及 结尾 的 CRC 校 验 字段 (5 位 ) 。 数 据 包 中 
包含 本 次 数据 包 的 奇偶 性 (如 果 只 发 一 个 数据 包 那 
PID 字 段 为 DATA0， 如 果 发 送 多 个 数据 包 则 数据 包 的 
PID 以 DATA0 和 DATA1 交 蔡 出 现 ) 字段 (8 位 ) 、 实 际 
数据 字段 (0 一 1024 字 节 ) 以 及 CRC 字 段 (16 位 ) o 
握手 包 只 包含 一 个 PD 字段 (8 位 ) 。 

这 些 事务 对 应 的 数据 包 ， 是 由 USB 主 控制 器 从 主 
存 队 列 中 拿 到 Transaction Descriptor 分 析 并 从 主 存 中 
取 回 对 应 的 数据 之 后 ， 在 主 控 硬 件 内 部 拼接 生成 的 。 
USB Bus Driver 生 成 的 是 每 个 事务 的 Descriptor， 而 不 
是 事务 数据 包 本 身 ， 这 个 一 定 要 注意 。 

下 面 我 们 就 来 看 一 下 四 大 类 传输 方式 下 具体 的 数 
据 包 交 互 流程 。 

ө ”控制 类 传输 。 

该 类 传输 的 目标 EP 恒定 为 EP0， 其 用 于 从 设备 获 
取 基 本 信息 、 配 置信 息 以 及 用 于 向 设备 写 入 对 应 的 
配置 以 及 设备 的 USB 地 址 等 信息 。 如 图 7-137 所 示 。 
完成 一 次 控制 传输 需要 三 个 阶段 。 第 一 阶段 是 SETUP 
阶段 。 该 阶段 内 ，Host 端 会 发 起 一 个 SETUP 事 务 ， 该 
事务 中 包含 一 个 发 向 设备 的 SETUP 类 型 的 令 牌 包 、 一 
个 发 向 设备 的 DATA0 类 型 的 数据 包 ， 以 及 设备 返回 的 
握手 包 。DATA0 数 据 包 中 包含 Host 在 本 次 向 设备 发 送 
的 命令 ， 这 些 命令 如 图 7-138 所 示 。 有 些 命令 (比如 
GET 开 头 的 ) 在 被 EP0 收 到 之 后 ，EP 需 要 返回 对 应 的 数 
据 ， 由 于 设备 端 不 能 主动 发 送 数据 ， 所 以 此 时 配置 传 
输 过 程 进入 第 二 阶段 也 就 是 数据 阶段 。Host 端 可 以 发 
起 若干 个 数据 读 事务 ， 每 个 事务 以 IN 类 型 的 令 牌 包 开 
头 。EP0 收 到 该 令 牌 包 之 后 ， 便 将 准备 好 的 回复 刚才 收 
到 的 命令 的 数据 打包 在 DATA0/1 数 据 包 中 发 送 给 Host， 
图 7-139 所 示 为 设备 返回 的 对 命令 的 响应 数据 的 例子 。 

Host 收 到 数据 包 后 返回 一 个 握手 包 。 握 手包 的 类 
型 视 情况 而 定 ， 如 果 数 据 无 误 ， 则 为 ACK 类 型 ， 如 果 
有 误 则 不 返回 任何 握手 包 ， 静 候 设备 端 重 传 。 由 于 设 
备 端 返回 的 数据 长 度 不 定 ，USB 是 这 样 来 让 接收 方 知 
道 发 送 方 已 经 发 送 完 毕 所 有 数据 的 ， 发 送 方 每 次 传输 
按照 数据 包 最 大 允许 长 度 来 打包 数据 ， 比 如 64 字 节 ， 
当 发 送 到 最 后 一 个 数据 包 时 ， 该 数据 包 如 果 小 于 64 字 
节 ， 则 接收 方 就 认为 这 是 最 后 一 份 了 ; 但 是 要 发 送 的 
数据 如 果 刚 好 是 64 字 节 的 倍数 ， 则 最 后 一 个 数据 包 长 
度 也 为 64， 接 收 方 无 法 判别 是 否 已 经 全 部 发 送 完毕 ， 
所 以 发 送 方 一 旦 遇 到 最 后 一 个 包 也 是 64 字 节 ， 则 需要 
额外 发 送 一 个 长 度 为 0 的 DATA 类 型 数据 包 ， 这 样 接 收 
方 就 知道 本 次 传送 已 经 结束 。Host 端 每 发 送 一 次 IN 令 
牌 包 ， 紧 跟着 的 DATA 数 据 包 中 的 PID 字 段 就 需要 从 
DATA0 切 换 到 DATA1 或 者 相反 ， 保 证 一 个 DATA0 和 1 
轮换 。 所 以 ，Host 端 一 开始 并 不 知道 设备 端 有 多 少数 
据 要 返回 ， 会 不 断 发 起 IN 读 数据 事务 ， 直 到 收 到 最 后 
一 个 长 度 小 于 数据 包 最 大 允许 长 度 的 数据 包 为 止 。IN 
和 OUT 令 牌 发 出 后 ， 后 续 会 有 多 少数 据 发 出 / 收 到 完 
全 取决 于 发 送 数据 的 一 方 。 
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图 7-137 配置 传输 典型 的 交互 流程 
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图 7-138 各 种 控制 命令 一 览 和 例子 


Device Status Information Returned During Get Status Request 


Endpoint Status Information Returned During Get Status Request 


7 6 5 4 У 2 1 ° 7 Б Е 4 =. 7 = 5 
Reserved (reset to zeros) Port Test | Remote | Self Е 

Wakeup | Powered Reserved (reset to zeros) Stall 
15 14 13 12 п 10 9 s 15 14 13 12 п 10 9 8 


Reserved (reset to zeros) 


Reserved (reset to zeros) 


图 7-139 设备 返回 的 数据 中 所 包含 的 内 容 举 例 


提示 > 

IN/OUT 令 牌 包 、DATA 数 据 包 中 并 不 包含 用 于 
描述 本 次 传输 的 数据 长 度 的 信息 ， 数 据 长 度 不 定 。 
既然 长 度 无 法 预知 ， 那 么 接收 方 又 怎么 知道 导线 上 
的 信号 到 哪里 截止 算是 一 个 数据 包 呢 ? 是 的 ， 必 须 
有 一 个 “ 包 结 束 ” 标 识 才 对 。 实 际 上 ， 不 但 包 结 束 


标识 有 ， 包 开始 标识 也 有 。USB 主 控制 器 自动 为 每 
个 数据 包 之 前 加 上 一 个 SYNC 字 段 ( 00000001, 被 
底层 的 线路 编码 后 变 为 01010100， 有 足够 的 电 平 翻 
转 ， 用 于 接收 方 同步 时 钟 信号 ) ， 在 尾部 附 上 一 个 
EOP (Епа of Packet ) 信号 ( 同时 拉 低 USB 接 口 两 
根 数据 线 的 电压 ) 。 


有 时 候 Host 发 送 一 个 配置 传输 过 程 是 为 了 向 EP0 
写 入 信息 ， 比 如 典型 的 将 设备 的 USB 地 址 告诉 设备 ， 
此 时 第 一 个 事务 依然 是 SETUP 事 务 令 牌 包 ， 然 后 发 
DATA0 包 (长 度 固定 为 8 字 节 ) 。DATA0 包 中 含 的 是 
图 7-138 中 右 下 角 所 示 的 Set Address Request 命 令 ， 其 
中 就 包含 了 该 设备 的 新 USB 地 址 ， 收 到 这 个 消息 之 后 
设备 端 按 理 说 不 需要 返回 任何 消息 了 。 但 是 USB 协 议 
规定 ， 配 置 传输 过 程 中 必须 包含 一 个 状态 阶段 ， 在 状 
态 阶段 ， 刚 才 最 后 接收 数据 的 一 方 需要 返回 一 个 数据 
包 来 通告 本 次 控制 传输 的 状态 。 如 图 7-137 中 所 示 ， 
Host 用 IN 收集 完 设备 端的 数据 后 ， 需 要 向 设备 发 送 一 
个 数据 包 ， 所 以 其 再 发 起 一 个 OUT 事 务 ， 也 就 是 发 
送 一 个 OUT 令 牌 包 ， 然 后 跟着 一 个 长 度 为 0 的 DATA0 
数据 包 ， 送 给 设备 端 。 设 备 端 收 到 后 则 发 送 一 个 握手 
包 ， 如 果 该 握手 包 是 NAK 则 表明 设备 端 依然 在 处 理 
本 次 控制 传输 产生 的 后 续 下 游 动作 ， 如 果 该 握手 包 是 
ACK 则 表明 本 次 控制 传输 正常 接收 并 处 理 完毕 ， 如 果 该 
担 手包 是 STALL 则 表示 设备 端 内 部 的 处 理 产 生 异 常 。 

如 果 本 次 控制 传输 为 配置 信息 写 入 ， 那 么 在 状态 
阶段 Host 会 发 送 IN 令 牌 包 让 设备 端 返回 数据 ， 设 备 端 
此 时 可 以 直接 返回 握手 数据 包 ， 也 可 以 返回 一 个 长 度 
为 0 的 数据 包 。 如 果 返 回 NAK 握 手包 则 表明 设备 端 仍 
然 在 处 理 过程 中 处理 Host 端 写 入 的 配置 信息 ， 比 如 
将 它们 导入 到 内 部 的 各 个 寄存 器 ) ， 如 果 返 回 的 是 0 
长 度数 据 包 则 表明 本 次 处 理 已 经 完成 ， 如 果 返 回 的 是 
STALL 担 手包 则 表明 设备 端 处 理 异 常 。 如 果 设 备 端 返 
本 的 是 0 长 度数 据 包 ， 则 Host 端 还 需要 返回 一 个 ACK 
确认 握手 包 ， 如 果 设 备 端 直 接 返回 的 是 握手 包 ， 则 
Host 端 不 需要 返回 任何 包 ， 本 次 传输 结束 。 

有 时 候 ，Host 端 发 起 配置 传输 是 为 了 向 设备 写 入 
一 些 配 置信 息 ， 比 如 Set Address Request， 但 是 由 于 
地 址 信息 很 短 只 有 7 位 ， 所 以 不 需要 额外 数据 包 ， 只 
需要 一 次 SETUP 事 务 即 可 完成 。 但 是 有 时 候 ，Host 端 
可 能 需要 向 设备 端 写 入 很 多 配置 信息 ， 此 时 设备 端 在 
SETUP 事 务 中 的 数据 包 封 装 一 条 对 应 的 命令 〈 比 如 
SET xxx) 发 给 设备 之 后 ，Host 可 能 会 发 起 多 论 OUT 
事务 ， 将 要 写 入 的 数据 写 入 ， 多 个 OUT 事 务 之 间 也 需 
要 轮流 使 用 DATA0 和 DATA1。 此 时 ， 状 态 阶 段 的 事务 
就 应 该 是 Host 端 要 发 起 IN 事务 ， 向 设备 收取 一 个 数据 
包 ， 以 结束 本 轮 控制 传输 过 程 。 

控制 传输 的 过 程 理解 起 来 可 能 让 人 有 点 学 ， 所 
以 这 里 再 梳理 一 下 。 首 先 ， 一 次 配置 传输 包含 三 个 阶 
В: SETUP 阶 段 、 数 据 阶段 、 状 态 阶段 。SETUP 阶 
段 只 包含 一 个 SETUP 事 务 ， DATA 阶 段 可 以 包含 多 个 
DATA 数 据 包 ， 视 要 传递 的 数据 多 少 而 定 ;， 状态 阶段 
只 包含 一 个 OUT 或 者 IN 事务 。 而 每 个 事务 都 由 三 个 
令 牌 包 组 成 ， 每 个 令 牌 包 又 由 多 个 字段 组 成 。 正 是 由 
于 这 么 多 的 层次 、 这 么 多 的 交互 规则 〈 比 如 DAIA0 和 
DATA1 轮 流 用 ， 最 后 一 个 小 于 最 大 包 长 度 的 包 表 明 
没有 更 多 数据 了 ， 需 要 一 个 状态 阶段 回 敬 一 个 数据 包 
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等 ) 才 会 让 你 感觉 稍 许 混 乱 。 


DATA0 和 DATA 1 这 两 个 PID 轮 流 用 是 有 原因 
的 。 假 设 发 送 方 发 送 了 DATA0 数 据 包 ， 接 收 方 也 
成 功 并 且 无 误 接收 到 了 DATA0， 但 是 在 将 ACK 握 
手包 返回 给 发 送 方 的 时 候 ， 链 路 上 出 现 了 错误 导致 
该 数据 包 出 错 丢 弃 ， 发 送 方 期 待 接收 ACK 超 时 之 
后 ,会 再 次 发 起 之 前 的 DATA0 数 据 包 ， 此 时 接收 方 
会 知道 这 样 一 件 事 : 上 一 次 对 方 发 送 的 是 DATA0， 
这 次 接收 方 应 该 接收 DATA1 才 对 ， 但 却 又 接收 到 了 
DATA0， 表 明 发 送 方 未 收 到 上 一 次 的 握手 包 ， 这 次 
收 到 的 依然 是 上 一 次 的 包 ， 所 以 发 送 方 会 再 次 补 发 
一 个 ACK 握 手包 。 


@ ”中断 类 和 批量 类 传输 。 

中 断 类 和 批量 类 传输 的 模式 相同 ， 如 图 7-140 所 
示 。Host 端 会 发 出 IN 或 者 OUT 令 牌 包 ， 但 是 紧 接着 可 
以 允许 连续 发 送 多 个 DATAO/1 数 据 包 〈 每 个 都 要 返回 
握手 包 ) ， 而 不 是 像 控 制 传输 时 那样 用 多 轮 IN/OUT 
事务 每 个 事务 只 传 一 个 数据 包 。 有 个 专业 术语 来 描述 
这 种 下 发 一 个 令 牌 之 后 紧 跟着 大 量 连续 的 数据 包 的 过 
程 ， 叫 作 突 发 传输 (Burst) 。 很 多 高 速 总 线 都 支持 究 
发 传输 。 

可 能 有 个 疑问 : 既然 中 断 类 和 批量 类 传输 模式 
完全 相同 ， 那 为 何 还 要 设置 这 两 个 不 同 的 类 别 呢 ? 
它们 到 底 区 别 在 哪 ? 区 别 在 于 这 两 类 传输 的 数据 包 
最 大 允许 占用 的 链 路 带宽 。 发 向 中 断 类 EP 的 事务 
的 IO 请 求 会 被 Host Driver 以 更 多 的 机 会 放 入 发 送 队 
列 ， 只 要 有 就 优先 被 放 入 队列 ， 在 有 多 个 IO 请 求 等 
待 下 发 时 ， 这 会 确保 中 断 类 请 求 最 大 占用 90% 的 比例 
被 下 发 。 而 批量 类 传输 并 不 保证 优先 传输 ， 只 是 尽量 
被 传送 。 

ө Брзи ит. 

同步 型 EP 发 送 的 同步 类 传输 的 特点 是 不 需要 ACK 
应 答 ， 一 个 IN/OUT 令 牌 就 可 以 号 令 连续 多 个 DATA0 
(不 需要 DATA1， 因 为 出 了 错 也 不 会 重 发 ) 数据 包 。 
所 以 ， 其 传送 模式 与 图 7-140 中 所 示 的 场景 类 似 ， 只 是 
没有 了 DATA1 而 全 是 DATA0， 以 及 不 再 需要 在 每 个 数 
据 包 之 后 跟着 返回 握手 包 了 。 依 然 是 当 接 收 到 一 个 长 
度 小 于 最 大 允许 包 长 度 的 数据 包 后 意味 着 传送 结束 。 

中 断 类 和 同步 等 时 类 传输 ， 必 须 保障 最 大 可 拥 
有 90% 的 带宽 ， 控 制 类 〈 发 往 EP0 的 ) 请 求 必须 保障 
最 大 可 10% 的 带宽 ， 批 量 类 则 可 占用 剩余 的 带宽 。 然 
而 这 并 不 是 说 任意 时 刻 均 有 90% 的 带宽 保留 给 中 断 类 
和 同步 类 ， 而 是 说 如 果 当 前 上 层 下 发 的 请 求 真 的 存在 
90% 比 例 的 中 断 类 /同步 类 ， 那 么 就 必须 保证 它们 真 的 
最 大 占据 90% 带 宽 ， 也 就 是 说 在 某 个 时 刻 所 有 队列 中 
现存 的 中 断 /同步 类 IO 请 求 Descriptor 总 量 最 大 占 比 不 
超过 90%。 


可 大 话 计算 机 一 一 计算 机 系统 底层 架构 原理 极限 剖析 


Q язва P вене Ө @=s=ss=e | 

| IN | ADD | ENDP | CRC DATA0 | Data ( 643% ) CRC | PID 
РАТАТ | Data (6438 ) CRC | PD 
РАТАО | Data (0~63 字 节 ) | СЕС | PID 

先 发 令 牌 包 Ө masa 最 后 发 握手 包 Ө 

Ф хя > Р 

| OUT | ADD END СЕС __БАТАО__ Data (646) | CRC ` PID 
DATA1 Data (6435) CRC PID 
РАТАО | Data ( 0~63 字 节 ) СЕС PID 

Ноз Hh PID 设备 端 发 出 的 
图 7-140 中断 类 和 批量 类 传输 的 过 程 


提示 * 


如 果 当 前 链 路 带宽 非常 充裕 ， 则 任意 流量 均 可 
占用 任意 比例 的 带宽 。90% 的 限制 仅 在 有 多 种 类 请 
求 同 时 存在 时 生效 。 


前 文中 提 到 过 ，Host Driver 按 照 一 定 规则 负责 将 
对 应 的 IO Descriptor 调 度 到 发 送 队 列 中 。 那 么 这 里 的 
“规则 ”具体 是 怎么 样 的 ? Host Driver 并 不 会 自己 去 
制定 规则 ， 而 是 完全 根据 每 个 USB 设 备 自身 的 要 求 来 
调度 各 自 的 VO 请 求 。 我 们 返回 去 看 图 7-133， 这 是 一 
个 设备 的 Endpoint Descriptor， 可 以 看 到 其 中 有 一 项 是 
bInterval，USB 设 备 就 是 用 这 一 项 来 向 上 层 的 驱动 程 
序 声明 自己 需要 多 少 带宽 资源 的 。 该 项 的 含义 其 实 是 
在 告诉 上 层 的 Host Driver: “既然 我 无 法 主动 收发 数 
据 ， 只 能 等 待 IN/OUT 令 牌 包 来 轮 询 我 ， 我 需要 你 至 
少 每 隔 多 少 毫 秒 就 轮 询 我 一 下 收发 数据 ， 否 则 我 会 被 
内 部 缓冲 区 中 爆满 的 数据 给 撑 死 。” 当 然 bInterval 值 
的 单位 并 不 一 定 是 毫秒 ， 根 据 不 同 场景 还 略 有 不 同 ， 
具体 大 家 可 以 自行 了 解 。 还 可 以 看 到 端点 描述 符 中 还 
有 另 一 项 : Max Packet Size。 根 据 轮 询 间隔 和 最 大 包 
长 度 ， 就 可 以 估算 出 该 设备 对 带宽 的 需求 。USB Bus 
Driver 会 根据 当前 已 经 连接 的 USB 设 备 算出 一 个 已 占用 
带宽 ， 如 果 此 时 再 有 新 设备 插入 ，Bus Driver 通 过 读 出 
其 各 种 描述 符 ， 算 出 其 对 带宽 的 需求 ， 如 果 需 求 小 于 
剩余 带宽 ， 则 可 以 接 入 ， 否 则 该 设备 就 无 法 使 用 。 


值得 一 提 的 是 ， 只 有 中 断 类 、 同 步 等 时 类 以 及 
控制 类 的 事务 需要 保障 QoS。 而 EP0 不 需要 声明 自 
己 所 需 的 带宽 ， 因 为 Host Driver 会 恒定 将 其 保持 为 
10%。 而 中 断 类 和 同步 等 时 类 由 于 每 个 设备 要 求 的 


都 或 多 或 少 不 同 ， 所 以 中 断 类 和 同步 等 时 类 EP 的 描 
述 符 中 需要 使 用 bInterval 字 段 来 描述 。 


精度 比较 高 的 鼠标 (说白 了 就 是 比较 贵 的 鼠标 ) 
的 Endpoint Descriptor 中 声明 的 bInterval 值 越 低 ， 那 就 
意味 着 其 需要 Host 端 的 鼠标 驱动 程序 以 更 快 的 速度 来 
轮 询 这 个 EP 驱动 程序 将 该 请 求 转换 之 后 的 USB 消 
息 用 相 比 其 他 USB 设 备 EP 对 应 的 请 求 更 高 概率 的 派 
发 机 会 派发 到 主 控 的 发 送 队列 中 ) ， 也 就 是 向 该 EP 
发 起 数据 读 操作 ， 最 终 Host 端 发 起 IN 令 牌 包 ，EP 返 回 
DATA 数 据 包 。 因 为 精度 更 高 的 鼠标 在 同样 的 时 间 内 
会 有 更 多 的 位 置 采样 点 被 生成 而 缓存 在 其 内 部 缓冲 器 
内 ， 所 以 要 求 更 频繁 来 获取 数据 ， 这 样 鼠标 的 图 形 在 
屏幕 上 移动 就 会 更 加 精准 和 平滑 。 


和 鼠标 移动 一 次 ， 底 层 其 实 对 应 了 多 次 更 加 细致 
的 位 移 量 上 报 ， 这 与 该 筷 标的 两 个 参数 有 关 ， 也 就 
是 CPI ( Counter Per Inch ) 和 DPI ( Dot Per Inch ) 。 
DPI 决定 了 鼠标 底下 的 位 移 传感器 能 够 识别 出 的 最 
小 距离 粒度 ， 假 设 某 筷 标 DPI-5000， 那 么 它 能 够 侦 
测 到 1/5000 英 寸 的 位 移 量 。CPI 决 定 了 鼠标 每 移动 一 
英寸 向 Host 端 上 报 ( 小心，Host 端 鼠标 驱动 是 不 断 
轮 询 鼠 标 来 拿 到 样 点 的 ， 而 不 是 靠 氛 标 或 者 USB 主 
控 主 动 中 断 ) 多 少 个 采样 点 的 位 移 量 ， 也 就 是 说 如 
果 某 个 鼠标 的 DPI-=5000，CPI=1000， 那 么 该 鼠标 每 
移动 1/1000 英 寸 ， 和 鼠标 就 会 生成 一 个 位 移 量 采样 。 
筷 标 怎么 知道 移动 了 1/1000 英 寸 的 呢 ? 靠 的 就 是 
5000 DPI 的 分 辨 率 。 当 底层 检测 到 移动 了 5 个 1/5000 
英寸 时 ， 换 句 话 说 ， 鼠 标 传感器 向 鼠标 内 部 的 电路 
某 计 数 器 中 更 新 了 5 次 ， 饼 标 内 部 的 CPU 就 知道 发 


生 了 1/1000 的 位 移 ， 便 生成 对 应 的 位 移 值 ， 如 果 CPI 
也 为 5000， 那 么 计数 器 每 次 更 新 都 会 生成 一 次 位 移 
量 值 。 所 以 ，CPI 值 一 定 是 被 设计 为 小 于 等 于 DPI 
的 ， 否 则 没有 意义 。DPI 和 CPI 都 是 可 以 调节 的 ， 
DPI 如 果 大 于 CPI 是 没有 实际 效果 的 ， 所 以 DPI 决 定 
了 一 款 和 鼠标 的 最 高 精度 ， 而 CPI 决 定 了 鼠标 的 实际 
体现 出 的 精度 。 在 Windows 和 鼠标 设置 界面 中 调节 的 
和 鼠标 移动 速度 ， 其 实 是 系统 将 鼠标 的 移动 距离 翻译 
成 和 鼠标 图 形 在 屏幕 像素 上 移动 距离 的 过 程 ， 速 度 调 
节 得 高 ， 鼠 标 每 移动 一 次 (每 次 上 报 位 移 量 ) ,， K 
标 图 形 就 会 被 移动 更 多 的 像素 。 高 CPI 的 鼠标 可 以 
检测 到 更 精细 的 移动 ， 从 而 让 鼠标 移动 对 应 的 像 
素 。 而 低 CPI 的 鼠标 ， 可 能 鼠标 动 了 ， 却 并 没有 检 
测 到 移动 ， 屏 幕 上 的 鼠标 也 不 会 移动 ， 就 会 感觉 到 
定位 很 不 精准 。 当 然 ， 高 CPI 的 USB 鼠 标 一 定 要 在 
其 EP 属 性 中 声明 更 低 的 轮 询 间隔 ， 其 Host 端 驱动 就 
会 以 更 高 的 频率 轮 询 鼠 标 ， 从 而 才能 及 时 取 回 新 位 
移 量 。 


前 文中 提 到 过 ，Host Driver 会 在 主 存 中 初始 化 
多 个 队列 ， 用 于 调度 上 层 下 发 的 IO 请 求 Descriptor。 
USB 主 控 硬 件 内 部 会 有 一 个 11 位 的 计数 器 ， 该 计数 器 
每 隔 1] ms 就 +1， 该 计数 器 会 触发 主 控 内 部 的 电路 切换 
到 主 存 中 的 下 一 个 队列 取 IO Descriptor 执 行 。 这 样 的 
话 Host Driver 需 要 初始 化 22=2048 个 队列 。 切 换 队 列 
执行 TO 时 ， 上 一 个 队列 中 未 执行 完 的 IO 会 被 暂停 ， 
等 下 次 轮 到 时 重新 执行 。 

每 当 切 换 到 一 个 新 队列 ，USB 主 控制 器 会 主动 
向 USB 网 络 上 广播 一 个 帧 起 始 〈Start of Frame) 数 
据 包 ，SOF 数 据 包 由 一 个 8 位 的 SOF PID、11 位 的 帧 
号 和 5 位 的 CRC 组 成 。 其 中 11 位 的 帧 号 就 是 上 文中 提 
到 的 USB 主 控 内 部 的 计数 器 值 。USB 体 系 将 这 些 发 
送 队 列 称 为 帧 (Frame) ， 其 在 物理 上 就 是 一 个 队 
列 〈 由 多 个 IO Descriptor 形 成 的 单 向 链表 ， 前 文 介 
绍 过 ) 。USB 设 备 收 到 这 个 数据 包 之 后 ， 不 需要 回 
应 任何 数据 ， 但 是 却 可 以 知道 USB 主 控 开 始 执行 新 
队列 中 的 IO 请 求 了 ， 那 么 自己 上 一 次 未 执行 完 的 事 
务 就 需要 作废 〈 当 然 ， 数 据 不 能 丢 ) ， 等 待 下 一 次 
重新 再 与 Host 交 互 ， 继 续 执行 。USB 主 控 定时 切换 
队列 执行 是 为 了 保证 公平 性 ， 同 时 也 为 了 配合 Host 
Driver 向 队列 中 按照 带宽 规则 调度 对 应 事务 的 这 种 方 
式 。 发 完 SOF 数 据 包 之 后 ，USB 主 控 就 开始 从 新 队列 
取 I/O Descriptor， 然 后 生成 对 应 的 数据 包 发 向 USB 
网 络 了 。 

USB 主 控 会 在 其 内 部 硬件 模块 中 自动 为 每 一 个 数 
据 包 (包括 SOF 包 ) 头 部 加 上 SYNC 字 段 ， 尾 部 加 上 
EOP 字 段 。SYNC 字 段 是 为 了 让 USB 设 备 一 侧 的 接收 
电路 对 表 ( 时 钟 同步 ) 使 用 ， 以 便 对 后 续 数据 包 的 信 
号 接收 。 

图 7-141 所 示 为 SB 体系 中 的 URB〈 图 中 的 IO 
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Request Packet) 、 事 务 、 帧 、 数 据 包 、 字 段 之 间 的 整 
体 关 系 示 意图 。 图 7-142 所 示 为 USB 协 议 栈 运作 全 流程 
示意 图 。 

图 7-142 中 给 出 了 USB 键 盘 、USB 鼠 标 、USB 以 太 
网 卡 和 U 盘 这 4 种 最 为 常用 的 USB 设 备 。 其 中 USB 鼠 标 
和 键盘 的 设备 驱动 程序 需要 不 断 轮 询 各 自 设备 的 相关 
EP 来 获取 鼠标 的 最 新 位 置 坐标 信息 和 按键 点 击 信息 ， 
以 及 键盘 盘 按 下 的 键 码 。 其 以 多 高 的 频率 来 读 取 对 应 
EP 中 的 内 容 取决 于 设备 端 该 EP 的 配置 信息 Descriptor 
中 的 bInterval 字 段 的 值 ， 该 值 会 被 USB Виз Driver 在 枚 
举 和 配置 设备 时 读 出 并 保存 。 获 取 到 的 鼠标 位 置 、 按 
键 点 击 事件 ， 会 被 传递 给 负责 管理 图 形 界面 的 程序 ， 
后 者 根据 鼠标 位 置 来 移动 鼠标 的 图 形 或 者 触发 当前 点 
击 的 按钮 、 图 标 对 应 的 程序 的 执行 。 键 盘 驱 动 接收 到 
的 键盘 码 会 被 放 入 一 段 缓冲 区 内 ， 然 后 其 他 专用 程序 
负责 将 这 些 键 码 传递 给 需要 的 程序 。 比 如 当前 冬瓜 哥 
正在 用 Word 程 序 打字 ，Word 程 序 内 部 会 调用 一 个 叫 
scanf0 的 函数 ，f 表 示 Formatted。 该 函数 会 从 存放 键 码 
的 缓冲 区 中 将 键 码 读 出 来 解码 成 对 应 的 字符 ， 然 后 传 
送 给 Word 程 序 后 续 的 流程 。 当 然 ， 这 期 间 还 少不了 各 
种 汉字 输入 法 程序 预先 对 收 到 的 键 码 做 分 析 ， 将 其 转 
换 为 汉字 码 。 

对 于 USB 以 太 网 卡 和 USB 存 储 设备 ， 它 们 的 设 
备 驱动 程序 需要 从 上 层 的 网 络 协议 栈 СТСРЛР) 和 存 
储 协议 栈 (SCSI 协 议 栈 ) 接收 对 应 的 IO 任务 书 (IO 
Descriptor) 。 在 Linux 操 作 系统 中 ， 网 络 协议 栈 调用 
dev_queue_xmit() 函 数 下 发 任务 书 ， 所 下 发 的 任务 书 
为 sk_buff 结 构 体 〈sk 表 示 Socket) ; 存储 协议 栈 调用 
queuecommand() 函 数 下 发 任务 书 ， 所 下 发 的 任务 书 称 
为 SCSI Request Block (SRB) 。 设 备 驱动 会 将 上 层 
下 发 的 任务 书 通 过 调用 usb_alloc_urb() 函 数 转换 为 对 
应 EP 的 读 写 请 求 ， 形 成 一 份 新 的 MO 任务 书 ， 也 就 是 
USB Request Block (URB) ， 最 终 调 用 usb_submit_ 
urb0 函 数 传递 给 USB Bus Driver, Виз Driver 将 EP 的 
读 写 请 求 拆 分 、 转 换 为 USB 总 线 事务 (比如 IN/OUT 
等 ) ， 将 这 些 事务 请 求 描述 在 新 的 URB 中 ， 然 后 调用 
urb_enqueue0 函 数 将 其 加 入 到 URB 队 列 中 每 个 EP 一 
个 ) 并 引发 USB 主 控 的 Host Driver 对 其 进行 一 系列 处 
理 ， 最 终 调用 active_qh0 函 数 将 队列 中 的 URB 描 述 符 
按照 一 定 的 带宽 分 配 策 略 ( 按 照 EP 的 polling interval 
出 来 ) 压 入 到 对 应 的 底层 发 送 队 列 中 的 合适 位 置 ， 并 
将 对 应 的 队 首 指 针 写 入 到 USB 主 控 相 关 寄 存 器 以 通知 
对 方 来 拿 描述 符 。 

USB 主 控 每 隔 一 定时 间 〈( 比 如 USB 1.x 规 范 中 是 1 
ms) 就 切换 到 一 个 新 队列 中 取 描 述 符 ， 根 据 描述 符 中 
的 各 种 指针 信息 ， 到 主 存 中 取 回 本 次 要 发 送 的 事务 对 
应 的 数据 和 各 种 发 送 参数 。USB 主 控 在 其 内 部 的 缓冲 
区 封装 好 对 应 的 数据 包 ， 加 上 各 种 包头 和 CRC 字 段 ， 
然后 下 发 到 底层 的 发 送 电 路 ， 将 这 些 数据 包 按 照 USB 
网 络 规定 的 传输 方式 、 时 序 发 送 到 USB 网 络 上 。 
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图 7-142 
7.4.2.5 USB 网 络 的 层次 模型 


应 用 层 和 表示 层 这 两 个 角色 是 由 Host 端 的 应 
用 程序 扮演 的 ， 其 生成 对 应 的 数据 ， 比 如 “Hello 
World! ”及 其 字体 格式 颜色 等 格式 化 信息 。 如 果 想 
巴 它 发 送 到 使 用 一 块 USB 网 卡 连接 着 的 以 太 网 上 ， 那 
么 应 用 还 需要 调用 Socket 接 口 相关 API 函 数 ， 将 该 数 
据 指针 、 传 送 方式 、 目 标 耳 地址 、 目 标 TCP 端 口号 等 
信息 传递 给 Socket 层 。Socket 层 则 负责 调用 TCP/IP 相 
关 协 议 栈 对 该 数据 包 进 行 切片 、 封 装 、 打 IP 和 以 太 网 
MAC 包 头 标签 等 操作 ， 然 后 Socket 层 需要 将 封装 好 的 
以 太 网 帧 ， 传 递 给 USB 以 太 网 卡 的 设备 驱动 。 


USB 协 议 栈 运作 全 流程 示意 图 


从 这 一 点 上 来 看 ， 对 于 USB 网 络 而 言 ，Socket 传 
下 来 的 封装 好 的 数据 包 ， 本 身 又 变 成 了 应 用 层 数据 
包 ， 而 这 个 数据 包 如 果 从 Socket 视 角 来 看 的 话 ， 是 包 
含 了 传输 层 、 网 络 层 的 信息 的 。 只 不 过 ， 访 问 以 太 
网 要 先 通过 USB 网 ， 这 就 形成 了 顽 套 关系 。 所 以 对 于 
USB 来 讲 ， 整 个 以 太 网 帧 再 次 变 成 应 用 层 数据 ， 它 将 
被 附 以 USB 网 络 的 包头 标签 传送 到 USB 网 络 ， 最 终 被 
写 入 到 USB 网 卡 内 部 。 此 时 该 数据 包 会 露出 其 内 层 
的 网 络 层 和 传输 层 信息 ， 这 个 包 得 以 继续 在 以 太 网 
+TCP/IP 协 议 的 网 络 上 继续 传送 。USB 在 这 里 起 到 了 
隧道 的 作用 。 

© ”USB 的 应 用 层 还 体现 在 其 对 几 种 总 线 事务 的 


定义 ， 也 可 以 称 为 事务 层 。 

ө ”USB 的 会 话 层 机 制 体现 在 其 令 牌 、 数 据 、 握 
手 的 过 程 中 ， 这 是 典型 的 会 话机 制 ， 即 令 牌 包 先 通告 
对 方 本 次 要 聊 的 类 型 ， 数 据 包 则 传递 聊天 内 容 ， 握 手 
包 则 向 对 方 点 头 示意 。 

ө USB 的 传输 层 机 制 体现 在 其 错误 重 传 方面 ， 
比如 车 检测 到 数据 包 错误 则 不 返回 任何 握手 信息 。 

ө USB 的 网 络 层 机 制 体现 在 其 共享 总 线 的 网 络 
类 型 、 树 形 的 网 络 拓扑 ， 以 及 对 USB 设 备 的 编 址 和 地 
址 分 配方 式 。 

© USB 的 链 路 层 体现 在 其 对 数据 包 的 控制 字段 
格式 、DATA0/DATA1 交 替 等 设计 模式 。 

© USB 的 物理 层 则 采用 两 根 导线 作为 差分 数据 
线 ， 将 其 分 别 标识 为 D+ 和 D-。 其 中 一 根 的 信号 与 另 
一 根 的 相位 完全 相反 ， 以 此 来 抗 干扰 。 所 以 实际 上 可 
以 认为 USB 只 采用 一 根 数据 线 传输 信号 ， 所 以 其 为 半 
双 工 传递 方式 。USB 支 持 热 插 拔 ， 当 Hub/Root Hub 检 
测 到 某 个 USB 端 口上 的 D+ 或 者 D- 信 号 线 上 产生 一 个 
2.5 V、 持 续 2.5 us 的 电压 时 ， 则 认为 有 USB 设 备 插 
入 。Host 端 的 USB Bus Driver 平 时 会 以 一 定时 间 间 隔 
来 轮 询 Hub 中 的 Status Change Register (被 映射 到 一 个 
中 断 型 EP) ， 如 果 距 离 上 次 轮 询 之 后 并 没有 设备 的 状 
态 发 生变 化 ， 则 Hub 会 回复 NAK 握 手包 ， 如 果 有 设备 
的 状态 发 生 了 变化 比如 热 插 拔 等 ， 则 Hub 会 将 对 应 端 
口 在 Status Change Register 中 的 对 应 位 置 1， 并 在 Host 
端 下 次 轮 询 的 时 候 返 回 整个 Status Change Register 的 内 
容 ， 如 图 7-134 所 示 。USB Виз Driver 再 根据 其 中 被 置 
1 的 位 ， 向 Hub 的 EP0 发 出 Get_Port_Status 控 制 传输 命 
令 从 而 读 取 对 应 端口 的 具体 状态 信息 ， 然 后 向 EP0 发 
出 Port_Reset 控 制 命令 (发 送 Port_Reset 之 前 要 确保 从 
检测 到 设备 被 插入 到 发 出 Port_Reset 之 间 至 少 过 去 100 
ms 的 时 间 ， 为 了 给 设备 内 部 的 控制 器 充分 的 初始 化 时 
间 ， 有 些 USB 设 备 内 部 的 控制 器 是 有 固件 的 ， 需 要 一 
定 的 初始 化 时 间 ) 。Hub 收 到 Port Reset 命 令 后 ， 会 将 
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对 应 端口 的 D+ 和 D- 信 号 同时 拉 低 持续 10 ms。 然 后 ， 
Bus Driver 便 为 新 插入 的 设备 分 配 地 址 并 读 出 其 各 种 
配置 描述 符 ， 然 后 加 载 对 应 的 设备 驱动 。 


7.4.2.6 小 结 


USB 作 为 一 种 中 速 非 访 存 式 后 端 TO 网 络 ， 其 采用 
单独 的 USB 主 控制 器 接 入 访 存 网 络 ， 用 直接 访 存 的 方 
式 来 拿 取 URB 描 述 符 ， 然 后 采用 USB 网 络 的 寻 址 方式 
和 事务 方式 将 对 应 数据 发 送 给 对 应 的 USB 设 备 。 相 比 
于 传统 的 基于 PCIPCIE 接 口 和 协议 的 设备 而 言 ，USB 
体系 中 多 了 两 层 驱动 程序 ， 分 别 为 USB Bus Driver 和 
USB Device Driver。 这 两 层 驱动 程序 用 于 透 过 USB 主 
控制 器 来 操控 USB 网 络 ， 枚 举 、 发 现 和 驱动 USB 网 络 
上 的 设备 。 

USB 设 备 采用 EP 号 作为 一 个 接收 数据 的 端点 ， 其 
物理 上 对 应 着 一 个 缓冲 区 。 设 置 多 少 EP 完全 由 设备 开 
发 者 决定 。 由 于 USB 是 一 个 共享 总 线 型 网 络 ， 多 个 设 
备 要 竞争 其 带宽 资源 。 为 了 实现 QoS，EP 被 分 为 控制 
型 〈 只 能 是 EP0) 、 中 断 型 、 批 量 型 、 同 步 等 时 型 4 大 
类 ， 每 一 种 的 访问 方式 各 不 相同 。 其 中 中 断 型 和 同步 
等 时 型 EP 在 其 Descriptor 中 给 出 bInterval 用 于 声明 本 设 
备 最 小 要 被 保证 的 带宽 分 配 ，USB 主 控 的 Host Driver 
按照 这 个 频 度 来 调度 对 应 的 事务 到 队列 中 从 而 保障 
带宽 。 

图 7-143 所 示 为 USB 设 备 内 部 的 物理 实现 示意 图 。 
USB 接 口 控制 器 负责 从 /向 USB 网 络 上 接收 /发 送 数 
据 ， 并 根据 令 牌 包 中 的 EP 号 ， 将 收 到 的 数据 写 入 到 对 
应 的 FIFO 中 存储 起 来 。USB 设 备 的 核心 控制 模块 (图 
中 的 Device Core) 从 这 些 FIFO 缓 冲 区 中 提取 对 应 的 数 
据 ， 执 行 其 中 包含 的 命令 (如 果 数 据 为 SCSI 指 令 ) 或 
者 将 其 传递 到 后 端 网 络 上 《如 果 数据 为 以 太 网 帧 ) 。 
图 中 右 侧 所 示 为 一 个 U 盘 内 部 控制 器 的 架构 示意 图 。 
其 采用 了 4 个 批量 型 EP (2 个 IN 方 向 和 2 个 OUT 方 向 》 
分 别 用 于 存放 发 给 U 盘 的 指令 〈 比 如 SCSI) 、 待 写 
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图 7-143 USB 设备 内 部 的 物理 实现 示意 图 
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入 U 盘 的 数据 、 已 从 U 盘 读 出 的 数据 以 及 命令 的 执行 
状态 。 

网 络 上 可 以 找到 一 些 所 谓 USB 万 能 驱动 ， 比 如 
USB 网 卡 万 能 驱动 、U 盘 万 能 驱动 等 〈 实 际 上 由 于 太 
过 常用 ，U 盘 的 驱动 早已 集成 到 操作 系统 内 部 ， 而 U 
盘 的 开发 者 为 了 兼容 性 考虑 也 都 遵循 OS 内 获 驱 动 的 设 
计 ) 。USB 比 PCIE 设 备 的 驱动 更 加 简单 ， 因 为 USB 设 
备 驱动 操作 的 只 是 EP， 而 不 是 去 操作 一 堆 的 寄存 器 地 
址 。USB 设 备 的 EP 可 能 只 有 几 个 ， 而 PCIE 设 备 的 寄 
存 器 地 址 却 是 一 大 堆 ， 要 考虑 到 事情 也 很 多 。 所 以 ， 
USB 设 备 万 能 驱动 只 需要 在 安装 时 声明 自己 所 能 支持 
的 Vendor ID 等 匹配 信息 ， 把 与 其 兼容 的 设备 型 号 都 纳 
入 进来 即 可 。 当 然 ， 万 能 驱动 并 不 是 真 的 万 能 ， 那 些 
没有 在 其 声明 中 的 型 号 的 设备 依然 无 法 被 匹配 上 ， 从 
而 无 法 加 载 万 能 驱动 。 

这 里 还 是 要 深刻 理解 ，USB 主 控 是 一 个 PCIE 设 
备 ， 要 操纵 一 堆 寄存 器 ， 但 是 其 Host Driver 都 是 被 主 
流 操作 系统 集成 好 的 ，USB 设 备 驱动 开发 者 不 需要 
关心 USB 主 控 的 驱动 。 再 加 上 ， 主 流 USB 设 备 端的 设 
计 套 路 基本 一 致 ， 也 用 不 了 太 多 的 EP。 还 有 ， 诸 如 
U 盘 、USB 网 卡 等 接收 的 也 都 是 标准 的 数据 包 ， 比 如 
SCSI 命 令 、 以 太 网 帧 ， 一 般 不 会 有 太 多 特殊 的 私有 数 
据 格式 ， 所 以 开发 一 款 万 能 驱动 并 不 算 复杂 。 

USB 1.0/2.0/3.0 的 运作 方式 有 很 大 变化 。 上 文 介绍 
主要 是 以 USB 1.x 版 本 运作 原理 为 蓝本 ， 而 USB 体 系 中 
存在 低速 、 全 速 、 高 速 、 超 高 速 等 不 同 的 规格 ， 不 同 
规格 所 使 用 的 传输 参数 又 各 不 相同 、 甚 是 复杂 。USB 
3.0 标 准 基本 上 采用 了 与 PCIE 几 乎 相同 的 下 层 体 系 ， 只 
是 速率 不 同 。 至 于 更 多 细节 ， 请 大 家 自行 学 习 。 


7.4.3 ``. 
БЕ 


USB 今 天 大 行 其 道 。 殊 不 知 ， 在 上 世纪 末 并 没有 
出 现 USB。 那 么 当时 的 各 种 外 部 设备 ， 比 如 打印 机 、 
扫描 i 机、 磁带 机 、 硬 盘 、 光 了 驱 等 ， 都 是 怎么 接 入 计算 
机 的 呢 ? 当时 有 一 个 犹如 今天 的 USB 一 样 流 行程 度 的 
后 端 通用 IO 网 络 ， 叫 作 小 型 计算 机 系统 接口 (Small 
Computer System Interface，SCSI) 。 当 然 ，SCSI 在 今 
天 简直 让 人 不 忍 直 视 ， 其 扩展 性 差 〈 一 条 总 线 最 多 连 
接 15 个 设备 ) 、 接 口 物理 形态 和 线 缆 形 态 笨拙 腑 肿 ， 
关键 是 ， 成 本 在 同时 期 相对 较 高 ， 因 为 其 速率 在 当时 
还 是 较 高 的 。 那 么 ，SCSI 用 于 连接 打印 机 扫描 仪 等 
设备 就 显得 有 点 性 能 过 剩 ， 打 印 机 后 来 逐步 采用 LPT 
接口 ， 再 后 来 就 是 USB 接 口 大 行 其 道 了 。SCSI 这 个 曾 
经 王者 的 阵地 不 断 被 侵蚀 ， 最 后 收缩 到 仅仅 用 于 与 存 
储 相关 的 设备 ， 比 如 SCSI 硬 盘 、SCSI 磁 带 机 、SCSI 


光驱 等 ， 因 为 只 有 存储 系统 对 性 能 的 要 求 是 永 无 止境 
的 。SCSI 一 直 固 守 着 该 阵地 ， 也 就 彻底 演化 成 了 一 个 
后 端 专用 LO 网 络 。 


SCSI 为 各 种 存储 设备 定义 了 一 套 标准 的 指令 集 ， 
图 7-2 所 示 就 是 SCSI 体 系 为 块 访问 设备 (硬盘 类 设 
备 ) 定义 的 两 种 指令 格式 ， 此 外 还 有 针对 磁带 设备 定 
义 的 指令 集 。 除 了 定义 指令 集 之 外 ，SCSI 体 系 还 定义 
了 底层 的 数据 传输 通道 接口 ， 也 就 是 SCSI 并 行 接口 
(SCSI Parallel Interface, SPI) ， 以 及 后 续 的 SPI 2—5 
共 5 代 的 并 行 总 线 标准 每 一 代 的 速率 都 会 提升 )。 
SPI 定 义 了 一 套 并 行 共享 总 线 标准 以 及 数据 交互 方 
式 。 共 享 总 线 效率 很 低 ， 速 率 提升 到 一 定 程度 就 上 不 
去 了 ， 所 以 总 线 必然 需要 转换 为 串 行 方式 ，SCSI 体 系 
也 是 这 样 发 展 的 。 

如 图 7-144 为 SCSI 体 系 结构 的 全 貌 。 可 以 看 到 
SCSI 针 对 多 种 不 同 种 类 设备 定义 了 对 应 的 指令 集 。 这 
些 指令 集 被 写 入 SCSI 协 议 栈 的 代码 中 ， 并 内 置 到 目 
前 的 主流 操作 系统 中 。 该 协议 栈 接收 上 层 的 IO 请 求 
描述 结构 体 (LO Descriptor 任 务 书 ) ， 然 后 将 其 转换 
为 标准 的 SCSI 指 令 描 述 体 (SCSI Command Descriptor 
Block, CDB) ， 将 其 发 送 给 底层 的 网 络 接口 控制 器 
传送 到 后 端 网 络 上 。 协 议 栈 可 以 使 用 多 种 不 同 的 网 络 
接口 来 传递 CDB。 

左下 角 的 SPI 便 是 SCSI 体 系 原生 定义 的 并 行 共享 总 
线 型 通道 接口 。 后 来 人 们 不 断 尝 试 采用 更 加 便捷 、 高 
速 的 接口 来 传递 SCSI 指 令 ， 也 就 产生 了 诸如 SBP〈 利 
用 IEEE 1394 火 线 接口 ) FCP (利用 Fabre Channeli% 
口 ) 、SSA〔 利 用 [BM 独占 的 Serial Storage Architecture] 
口 ) 、SRP (利用 RDMA over Infiniband 接 口 ) 、iSCSI 
(利用 以 太 网 接口 )》 以 及 SAS 〈 利 用 Serial Attached SCSI 
接口 ) 这 些 规范 。 其 中 ，SAS 一 度 成 为 企业 级 硬盘 的 唯 
一 接口 形式 (直到 2016 年 之 后 才 被 PCIE 接 口 的 固态 硬盘 
逐渐 侵蚀 了 一 部 分 市 场 份额 ) 。 

这 些 网 络 接口 对 应 的 物理 实体 就 是 前 端 采用 PCIE 
连接 到 系统 前 端 ， 后 端 输出 对 应 网 络 通道 接口 的 Host 
Controller 芯 片 。 该 芯片 可 能 会 被 集成 到 IO 桥 片 中 ， 
也 可 能 作为 单独 的 芯片 被 焊接 到 主板 上 再 与 IO 桥 或 
者 直接 与 CPU 相 连接 ， 或 者 被 做 成 一 张 HBA (Host 
Bus Adapter) 或 者 又 称 AIC (Add in Card) 卡 的 形 
态 ， 插 入 到 主板 上 的 PCIE 插 槽 中 。 不 过 ， 这 三 种 形式 
的 本 质 都 是 一 样 的 。 图 7-145 所 示 为 已 经 淘汰 的 SCSI 
HBA 卡 与 目前 市 场 上 主流 的 SAS HBA 卡 的 实物 图 ， 可 
以 看 到 这 块 SAS HBA 在 后 端 推出 了 2 个 内 置 的 SAS 接 口 
和 2 个 外 置 的 SAS 接 口 ， 每 个 接口 可 运行 在 48GBit/s 
(12Gbit/s x 4) 的 传输 速率 上 。 而 图 中 的 SCSI HBA 
卡 采 用 了 当时 在 SCSI 卡 市 场 处 于 垄断 地 位 的 Adapter 
公司 的 主 控 芯 片 ， 推 出 2 个 内 置 和 2 个 外 置 的 SCSI 接 
口 ， 采 用 图 中 所 示 的 多 抽 头 SCSI 线 缆 〈 由 于 是 并 行 总 
线 ， 所 以 线 缆 比 较 宽 ， 内 含 数 十 根 排 线 ) ， 一 头 连接 
SCSI 端 口 ， 在 多 个 抽 头 上 可 连接 多 个 SCSI 设 备 。 这 些 
抽 头 连接 器 中 的 金 手指 直接 并 联 在 SCSI 线 绕 上 ， 是 真 
真实 实 可 见 的 共享 总 线 了 。 图 中 还 可 以 看 到 SCSI 接 口 
的 硬盘 。 
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图 7-144 SCSI 体 系 结构 


图 7-145 SCSIHBA 卡 与 SAS HBA 卡 


图 7-146 所 示 为 SCSI 并 行 共享 总 线 网 络 的 基本 拓 
扑 。 每 个 SCSI 主 控制 器 可 以 推出 一 个 或 者 多 个 端口 ， 
每 个 端口 后 面 可 以 挂 接 一 整 根 总 线 ， 每 个 端口 + 后 端 
总 线 又 被 称 为 一 个 通道 《Channel) 。 可 以 推出 多 个 
通道 的 SCSI 卡 的 售 价 必然 也 高 〈 图 7-145 中 的 SCSI 卡 
有 2 个 外 置 通道 和 2 个 内 置 通道 ) 。 每 个 通道 上 最 多 只 
能 连接 15 个 SCSI 设 备 〈 受 限于 总 线 上 的 地 址 线 只 有 4 


根 ， 最 大 编码 16 个 设备 ，SCSI 主 控 端 占据 一 个 地 址 编 
号 ， 剩 下 15 个 给 为 其 他 设备 所 用 ) 。 每 个 设备 的 地 址 
由 设备 电路 板 上 的 跳 线 帽 〈 本 书 前 面 章节 介绍 过 ) 来 
控制 ， 也 就 是 需要 手工 指定 ， 很 笨拙 。 

在 SCSI 体 系 中 ，SCSI 主 控 被 称 为 Initiator 端 
(简称 Init 端 ) ， 而 挂 接 在 总 线 上 的 SCSI 设 备 被 称 
为 Target 端 (简称 Tgt 端 ) ，Init 和 Tgt 这 两 个 名 词 


到 大 话 计算 机 一 一 计算 机 系统 底层 架构 原理 极限 剖析 
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图 7-146 ”SCSI 网 络 的 基本 拓扑 


概念 在 存储 系统 领域 内 经 常 使 用 。 主 控 或 者 设备 的 
SCSI 地 址 分 别称 为 Initiator ID 和 Target ID 。 由 于 是 
共享 总 线 ， 主 控 或 者 设备 想 要 发 起 通信 之 前 必须 先 
发 起 仲裁 过 程 进入 仲裁 阶段 。 赢 得 仲裁 的 节点 再 向 
地 址 总 线 上 放置 本 次 要 通信 的 目标 ID， 来 通知 对 方 
准备 接收 数据 ， 这 个 阶段 称 为 选择 阶段 。 这 样 ， 在 
Init 和 Tgt 端 之 间 就 建立 起 一 次 会 话 连 接 ，Init 或 者 
Tgt 可 以 向 对 方 发 送 对 应 的 数据 (命令 、 响 应 、 传 输 
控制 包 等 ) 。 由 于 SCSI 时 代 的 硬盘 都 是 机 械 盘 ， 速 
度 非常 慢 ， 当 Init 将 读 写 指令 发 送 给 Tgt 之 后 ，Tgt 需 
要 耗费 大 概 10 ms 当量 的 时 间 来 执行 该 请 求 。 而 这 
期 间 Tgt 如 果 依 然 占 着 总 线 不 放 ， 这 很 浪费 资源 。 所 
以 Tgt 在 接收 到 命令 之 后 ， 一 般 会 选择 释放 总 线 让 
Init 与 其 他 Tgt 获 得 通信 的 机 会 ， 而 自己 在 后 台 执行 
I/O 请 求 ， 当 数据 准备 好 之 后 ，Tgt 会 再 次 主动 发 起 
与 Init 端 通信 。 这 样 ， 一 段 时 间 内 ，Init 端 可 以 将 多 
个 1/0 请 求 发 送 给 多 个 Tgt 端 ， 而 这 些 Tgt 端 可 以 并 行 
执行 这 些 IIO， 以 获取 较 大 的 吞吐 量 。 所 以 Init 端 和 
Tgt 端 需要 记录 一 些 状态 信息 ， 被 称 为 Nexus (拉丁 
文 ， 连 接 的 意思 ) 。 

SCSI 和 SAS 各 自 只 是 一 种 网 络 形式 ， 一 种 被 人 
们 设计 出 来 专门 用 于 传递 SCSI 指 令 的 网 络 。 原 生 的 
SCSI 并 行 总 线 通 道 方式 属于 SCSI 体 系 的 原配 ， 而 
SAS 则 是 后 来 引进 的 新 式 底层 通道 形式 ， 其 速率 非常 
高 ， 所 以 我 们 称 之 为 高 速 专用 IO 网 络 。 然 而 ， 这 并 
不 意味 着 SAS 只 能 传递 SCSI 指 令 。SAS 完 全 可 以 作 
为 一 种 通用 网 络 而 传递 任何 数据 ， 只 要 重新 设计 SAS 
Host Controller 的 Host Driver 让 其 与 上 层 对 应 的 协议 
栈 对 接 即 可 ， 比 如 与 Socket TCP/IP 协 议 栈 对 接 ， 接 
收 以 太 网 帧 并 通过 SAS 网 络 传送 到 对 端 ， 此 时 SAS 主 
控制 器 会 表现 出 以 太 网 主 控 的 行为 。 为 了 保持 对 上 
层 接口 的 透明 性 ，SAS Host Driver 可 以 向 系统 中 注 
册 一 个 以 太 网 设备 ， 并 向 上 层 协议 栈 接口 注册 对 应 
的 handler 函 数 用 于 接收 上 层 的 数据 ， 以 及 向 上 层 发 
送 接收 到 的 数据 。 此 时 系统 内 会 多 出 一 个 虚拟 的 以 
太 网 卡 设 备 。 然 而 ，SAS 并 不 适合 大 规模 网 络 场景 ， 
因为 其 底层 采用 的 是 基于 连接 的 交换 技术 ， 我 们 后 


文中 再 细 表 。 

那么 ，SAS 网 络 有 没有 可 能 像 USB 网 络 一 样 ， 
作为 一 种 IO 扩充 网 络 呢 ? 比如 利用 一 个 SAS 主 控 
(НВА) 挂 接 多 种 SAS 接 口 的 设备 ， 比 如 SAS 接 口 的 
以 太 网 卡 、SAS 接 口 的 闪存 盘 、SAS 接 口 的 摄像 头 打 
印 机 等 ? 理论 上 是 没有 问题 的 。 阅 读本 书 到 此 ， 你 应 
该 能 够 充分 理解 计算 机 IO 与 网 络 的 关系 ， 那 就 是 计 
算 机 本 身 就 是 通过 某 种 网 络 来 接 入 各 种 外 部 设备 的 ， 
计算 机 IO 的 本 质 就 是 网 络 通信 系 统 ， 局 部 网 络 通信 
系统 。 你 还 应 该 能 够 理解 ， 计 算 机 IO 就 是 将 命令 、 
数据 通过 某 种 类 型 的 网 络 以 某 种 方式 〈 访 存 / 非 访 存 ) 
传递 给 目标 设备 去 执行 ， 目 标 设备 执行 完 后 ， 返 回 
执行 状态 。 所 以 ， 它 只 要 是 个 网 络 ， 就 可 以 作为 IO 
网 络 。 


某 个 网 络 是 否 是 访 存 网 络 ， 并 不 取决 于 它 的 技 
术 限 制 ， 而 是 取决 于 设计 者 的 决定 。 也 就 是 说 ， 
SAS 网 络 也 可 以 用 于 访 存 网 络 ， 只 需要 在 其 内 部 设 
置 一 个 按照 访 存 地 址 区 间 而 不 是 SAS 地 址 ( 见 下 
文 ) 来 路 由 的 路 由 模块 就 可 以 了 。 这 样 的 话 ，SAS 
帧 中 封装 的 就 可 以 是 存储 器 地 址 、 读 写 动作 编码 
等 了 。 


然而 ， 并 没有 人 去 设计 一 款 前 端 SAS、 后 端 以 太 
网 的 ， 也 就 是 SAS 接 口 的 以 太 网 卡 。 然 而 的 确 有 人 做 
出 了 USB 接 口 的 以 太 网 卡 、 声 卡 ， 因 为 USB 比 SAS 更 
加 通用 ， 而 且 最 关键 的 是 USB IO 总 控制 器 已 经 被 集 
成 到 了 地 球 上 的 几乎 任何 一 台 在 用 的 电脑 主板 的 IO 
桥 片 上 。 而 SAS 却 没有 ， 就 算 有 人 开发 了 SAS 口 的 以 
太 网 卡 ， 那 也 得 先 把 以 太 网 卡 接 到 SAS 卡 上 ，SAS 卡 
再 接 到 PCIE 插 槽 上 与 PCIE 网 络 总 控制 器 相连 。 这 样 
多 此 一 举 ， 直 接 用 PCIE 接 口 的 以 太 网 卡 就 可 以 了 。 同 
理 ， 你 也 可 以 开发 一 款 PCIE 接 口 的 硬盘 ， 比 如 目前 的 
NVMe 协 议 的 SSD 几 乎 都 采用 PCIE 接 口 连接 到 系统 。 
你 也 可 以 开发 一 款 PCIE 接 口 的 摄像 头 ， 不 过 可 以 肯 
定 的 是 ， 没 有 人 会 买 的 。 目 前 采用 SAS 作 为 接口 的 设 


备 ， 几 乎 上 只 有 硬盘 和 磁带 机 。 这 也 是 称 之 为 专用 IO 
网 络 的 原因 。 

另外 ，SAS 被 设计 为 兼容 SATA 接 口 ，SATA 盘 
可 以 采用 SAS 转 SATA 线 缆 (图 7-145 左 半 部 分 的 右 下 
fB) ， 或 者 背 板 上 的 SAS/SATA 通 用 连接 器 (图 7-147 
ATA) 连接 到 SAS HBA 上 ， 但 是 SAS 盘 无 法 连接 到 
SATA 接 口 /连接 器 上 。 如 图 7-147 所 示 ， 目 前 市 场 上 的 
SAS 盘 都 被 设计 上 了 两 个 独立 的 SAS 数 据 接口 ， 从 图 
中 右上 角 可 以 看 到 ，SAS 硬 盘 连 接 器 的 背面 还 有 7 根 
金 手指 用 于 传递 SAS 数 据 信号 。 这 两 个 端口 是 用 来 做 
元 余 的 ， 我 们 会 在 下 一 章 介 绍 存储 系统 是 如 何 利用 双 
端口 SAS 盘 实现 元 余 的 。 
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7.4.3.1 SAS 网 络 拓扑 及 设备 编号 规则 


SAS 是 一 个 高 规格 的 网 络 ， 其 采用 与 PCIE 类 似 的 
交换 式 拓扑 和 树 形 / 星 形 拓扑 ， 意 味 着 交换 机 之 间 不 
能 成 环 ， 只 能 从 一 个 根 逐 渐 向 下 延伸 ， 如 图 7-148 所 
示 为 SAS 网 络 的 拓扑 结构 。SAS 主 控制 器 一 般 会 出 若 
干 个 SAS 端 口 ， 可 以 直 连 SAS 设 备 ， 也 可 以 连接 SAS 
交换 器 从 而 扩充 更 多 设备 。SAS 体 系 中 将 交换 器 称 为 
扩展 器 (Expander， 简 称 SXP) 。 其 本 质 与 交换 器 无 
异 ， 叫 法 不 同 而 已 。 

与 PCIE 一 样 ，SAS 也 支持 利用 多 个 PHY (对 应 着 
PCIE 体 系 中 的 通道 ， 本 质 上 是 同一 种 事物 ) 绑 定 成 一 
个 端口 ，SAS 给 这 种 多 PHY 联 合 组 成 的 端口 起 名 为 宽 
端口 (Wide Port) ， 而 只 由 1 个 PHY 组 成 的 端口 为 罕 
端口 (Narrow Port) 。 目 前 市 场 上 的 SAS 设 备 端 一 般 
只 支持 xl PHY 的 窄 端口 。 用 多 少 个 PHY 组 成 一 个 宽 端 
口 并 没有 技术 限制 ， 只 是 受 限于 实际 产品 器 件 设计 考 
量 ， 目 前 的 SAS HBA 产 品 最 低 至 少 支持 1 个 x4 端 口 ， 
最 多 支持 多 个 x8 端口 ， 而 SAS SXP 芯 片 则 比较 灵活 ， 
可 以 支持 任意 PHY 数 量 的 端口 。 

图 7-145 中 的 SAS HBA 卡 上 有 2 个 x4 的 内 置 宽 端口 
和 2 个 x4 的 外 置 宽 端口 。 图 7-149 所 示 为 采用 1 分 4 的 线 
费 将 x4 宽 端口 中 的 4 个 PHY 分 开 ， 分 别 连接 到 4 个 窗 端 


Expander 


Expander 


图 7-148 ”SAS 网 络 的 拓扑 


Four Narrow Ports 


One Wide Port 


Several Narrow Ports 


图 7-149 ”SAS 宽 端口 和 窄 端口 连接 形态 
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口 SAS 硬 盘 ， 以 及 用 x4 对 x4 的 线 缆 将 HBA 上 的 一 个 x4 
宽 端 口 与 SXP 上 的 x4 宽 端口 连接 起 来 。 

每 个 SAS 端 口 均 有 一 个 64 位 长 的 SAS 地 址 ， 该 地 
址 并 非 由 程序 动态 分 配 的 ， 而 是 硬件 在 出 厂 之 前 就 已 
经 固化 在 芯片 内 部 的 ROM 存 储 器 中 的 ， 这 一 点 SAS 与 
以 太 网 的 MAC 地 址 的 做 法 是 相同 的 。 每 个 PHY 原 生 都 
被 固定 一 个 SAS 地 址 ， 如 果 多 个 PHY 组 成 宽 端口 ， 则 
该 端口 只 有 一 个 SAS 地 址 (根据 厂商 自 定义 的 策略 ， 
可 以 选用 其 中 某 个 PHY 的 地 址 作为 本 端口 地 址 ) 。 
64 位 中 的 低 4 位 为 地 址 类 别 码 〈 比 如 SAS 和 FC 网 络 的 
地 址 中 该 4 位 相同 ) ， 世 界 上 所 有 SAS 端口 的 地 址 的 
该 4 位 都 相同 ， 其 中 24 位 为 IEEE 标 准 组 织 分 配 的 厂商 
ID， 同 一 个 厂商 出 产 的 所 有 SAS 设 备 端口 的 地 址 该 24 
位 都 相同 ， 高 36 位 为 厂商 自 定义 字段 ， 同 一 个 厂商 的 
所 有 SAS 设 备 的 端口 地 址 该 字段 都 不 同 。SAS 网 络 中 的 
每 个 SXP 根 据 数据 包 中 的 SAS 地 址 来 将 数据 包 路 由 到 目 
标 端 口 。 

一 个 SAS 设 备 内 部 可 以 存在 多 个 子 设备 ， 子 设 
备 的 概念 在 PCIE 和 USB 体 系 中 都 存在 ， 分 别 被 称 为 
Function 和 Interface， 而 SAS 体 系 将 子 设备 称 为 逻辑 单 
元 (Logical Unit，LU) 。 每 个 LU 对 应 的 编号 被 称 为 
LU Number (LUN) ， 这 就 意味 着 ， 数 据 包 中 需要 携 
带 LUN 以 便 目标 设备 区 分 该 数据 包 应 该 发 给 哪个 LU 
处 理 。 如 果 某 个 设备 内 部 没有 其 他 子 设备 ， 那 么 该 设 
备 自身 就 为 LUN0。 

值得 一 提 的 是 ，SAS SXP 采 用 的 是 基于 连接 的 
交换 而 非 包 交 换 机 制 。 那 就 意味 着 ， 通 信 发 起 方 需 
要 先 向 SXP 发 送 一 个 建立 连接 的 请 求 ，SXP 内 部 的 
Crossbar 控 制 电路 会 将 对 应 MUX/DEMUX 的 控制 信 
号 切换 到 对 应 状态 ， 从 而 打通 一 条 通路 ， 供 双方 在 
一 段 时间 内 独占 该 通路 进行 通信 。 之 所 以 不 采用 包 
交换 的 原因 是 为 了 降低 成 本 ， 因 为 包 交 换 模式 需要 
在 每 个 端口 上 维护 大 量 的 包 缓冲 区 ， 以 及 对 缓冲 区 
的 QoS 管理 模块 ， 比 如 实现 虚拟 通道 等 。 这 就 是 为 什 
么 规格 接近 的 以 太 网 交换 芯片 的 价格 要 比 SXP 贵 的 
原因 。 然 而 ， 基 于 连接 的 交换 机 制 也 有 它 的 优势 所 
在 ， 那 就 是 数据 包 传送 的 时 延 会 降低 。 在 建立 连接 
之 后 ， 发 送 的 数据 包 中 就 可 以 不 携带 SAS 地 址 了 (3 
际 上 数据 包 中 会 携带 有 经 过 Hash 散 列 计算 处 理 的 
SAS 地 址 ， 把 64 位 散 列 成 24 位 ， 其 存在 的 目的 是 : 
有 些 接收 方 设备 不 放心 ， 会 对 每 个 数据 包 的 目标 地 
址 做 检查 ， 看 看 其 到 底 是 不 是 发 送 给 自己 的 ) ， 
为 经 过 本 连接 传送 的 数据 包 一 定 会 到 达 目 标 地 址 设 
备 ， 这 样 节省 了 链 路 带宽 。 同 时 ， 交 换 电路 也 不 需 
要 每 个 包 都 去 比较 地 址 、 入 队 、 出 队 了 ， 这 样 节省 
了 大 量 电路 处 理 开销 。 当 然 ， 其 劣势 就 是 连接 被 独 
占 ， 就 算 该 连接 上 一 段 时 间 内 没有 数据 包 发 送 ， 其 
他 通信 端口 也 无 法 用 这 条 连接 传送 数据 ， 从 而 浪费 
了 资源 。 因 此 ， 设 备 当 临时 没有 数据 要 返回 时 ， 需 
要 主动 断 开 连 接 ， 当 积攒 了 一 定量 数据 之 后 ， 再 重 


新 发 起 连接 传送 数据 。 整 个 过 程 就 是 在 建立 连接 的 
时 候 ， 创 建 连接 请 求 的 数据 包 会 被 路 由 一 次 ， 连 接 
建立 之 后 ， 后 续 数 据 包 不 需要 路 由 查 表 。 具 体 的 连 
接 建立 过 程 和 数据 传输 过 程 我 们 下 文中 介绍 。 


7.4.3.2 SAS 网络 中 的 Order Set 一 览 


还 记得 PCIE 网 络 中 的 有 续集 (Order Set) 的 概 
Ж? SAS 也 定义 了 一 系列 的 有 续集 ， 下 文中 会 经 
常 出 现 。 所 以 在 这 里 预先 给 出 每 一 种 有 续集 对 应 的 
编码 ， 如 图 7-150 所 示 ， 至 于 其 中 每 一 种 有 续集 的 含 
义 和 作 用 ， 我 们 会 在 下 文中 陆续 碰 到 ， 届 时 一 并 介 
绍 。SAS 体 系 中 并 不 称 之 为 有 续集 ， 而 改称 其 为 原 语 
(Primitive) ， 不 过 本 质 上 都 相同 。 

SAS 的 有 续集 由 4 个 字 节 组 成 ， 比 如 ALIGN (0) 
这 个 有 续集 (用 于 速率 协商 和 匹配 ) ， 由 K28.5、 
D10.2、D10.2、D27.3 这 4 个 字 节 组 成 。 由 于 SAS 采 用 
8/10bit 编 码 技术 ， 而 在 N/Mb 编 码 体系 场景 下 ， 人 们 习 
惯用 Kx.y/Dx.y 的 形式 来 表示 每 个 字 节 ， 其 中 x 表示 该 
字 节 8 位 中 的 低 5 位 所 表示 的 10 进 制 值 ，y 则 为 高 3 位 
所 表示 的 10 进 制 值 。 比 如 ， 对 于 8 位 数据 101 10101, 
x=10101 (10 进 制 21) ，y=101 (109 5), ЖА 
10110101 便 对 应 了 D21.5。 至 于 K 开 头 的 字符 ， 是 人 
们 从 8 位 编码 组 合 中 精心 挑选 出 来 的 、 其 0 和 1 的 组 合 
有 利于 电路 迅速 识别 的 那些 编码 组 合 ， 共 有 12 种 。 每 
个 有 续集 的 4 个 字 节 中 的 第 一 个 字 节 总 是 以 K 字 符 开 
头 ， 后 面 跟着 3 个 D 字 符 ， 这 一 点 从 图 7-150 中 可 以 看 
出 来 。 
提示 > 

ALIGN (0) 有 续集 中 有 两 个 连续 的 D10.2 字 
符 ，D10.2 对 应 的 10 位 编码 为 0101010101， 很 显 
然 ， 这 个 位 序列 非常 有 利于 接收 方 用 于 时 钟 同步 ， 
这 也 是 其 ALIGN 名 称 的 由 来 。ALIGN 有 续集 还 有 其 
他 作用 ， 比 如 用 作 与 PCIE 体 系 中 类 似 的 SKIP 有 续 
集 ，SAS 在 物理 层 也 需要 时 钟 补偿 ， 其 基本 原理 见 
了 PCIE 相 关 章 节 。 


图 7-151 和 图 7-152 所 示 为 D 和 K 字 符 的 码 表 ， 其 展 
示 了 每 个 D 字 符 在 编码 前 的 8 位 的 值 以 及 编码 后 的 10 的 
位 值 。 其 中 10 位 的 值 又 分 为 两 种 ， 一 种 是 10 位 中 0 比 1 
多 的 编码 方式 ， 用 RD- 表 示 ， 另 一 种 则 是 1 比 0 多 的 方 
式 ， 用 RD+ 表 示 。 电 路 会 根据 上 一 个 传送 的 字 节 中 的 
1 和 0 的 个 数 ， 动 态 采 用 RD- 或 者 RD+ 方 式 来 编码 下 一 
个 字 节 ， 以 平衡 线路 上 1 和 0 的 个 数 。N/Mbit 编 码 的 目 
的 我 们 在 本 章 前 文中 已 经 充分 介绍 过 了 。8/10bit 编 码 
表 以 及 D/K 字 符 的 定义 不 仅 适用 于 SAS， 也 适用 其 他 
任何 链 路 ， 所 以 贴 在 这 里 备查 。 


7.4.3.3 ”SAS 的 链 路 初始 化 和 速率 协商 
由 于 SAS 兼 容 SATA 接 口 ， 而 SATA 链 路 的 设备 发 
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Character Character 
мызды = Ре] r [= == w | ге | зе | maa 
МЕ NORMA кыз | веза | ona | оша NOTIFY (RESERVED 0) каз | oma | бото | oma 
АР (RESERVED 0) кав5 | 0274 | ома | 0167 змей ыы д ЖЕ ЖЕ ши 
NOTIFY (RESERVED 2) K285 0313 0102 0102 
AIP (RESERVED 1) к285 0274 016.7 0300 
ОРЕМ ACCEPT кав | 0167 | от | 0167 
NP passes E („ый 8. ома OPEN_REJECT (BAD DESTINATION) квз | ома | 094 | oma 
AIP (RESERVED WAITING ON PARTIAL) K28.5 0274 001.4 0073 ОРЕМ НЕЗЕСТ (CONNECTION RATE МОТ SUPPORTED) [> Г ом 02897 
АР (WAITING ОМ CONNECTION) квз | пота | 0073 | 0240 ОРЕМ НЕЛЕСТ (NO DESTINATION) ТШЕ IE ШЕ 
AIP (WAITING ОМ DEVICE) K28.5 027.4 0300 0297 OPEN_REJECT (PATHWAY BLOCKED) K285 0297 0167 0047 
АР (WAITING ОМ PARTIAL) Ков | 0274 | 0240 0047 ОРЕМ НЕЗЕСТ (PROTOCOL МОТ SUPPORTED) кгв5 | 0914 | 0207 | 0073 
ALIGN (0) к285 0102 0102 0273 ОРЕМ АЕЈЕСТ (RESERVED ABANDON 0) K285 0314 0020 0274 
ALIGN (1) квв | 0070 | 0070 | Doro OPEN_REJECT (RESERVED ABANDON 1) ков | оза | 0300 | 0167 
ALIGN (2) кева | om3 | oma | 0013 OPEN_REJECT (RESERVED ABANDON 2) квз | ома | ооз | 000 
ALIGN э) чек | из | HN ОРЕМ АЕЈЕСТ (RESERVED ABANDON 3) кз | оза | oma | 0300 
s кёз | oo | omo | bo73 | | OPENLREJECT (RESERVED CONTINUE 0) квз | 0297 | 000 | 0300 
BROADCAST (CHANGE) r> 0047 0020 0014 ОРЕМ АЕЈЕСТ (RESERVED CONTINUE 1) K28.5 0297 0240 001.4 
ОРЕН ЯЕЗЕСТ (RESERVED INITIALIZE 0) квз | рэт | озо | Ома 
BROADCAST (SES) квз | 0047 | 0073 | 0297 
OPEN_REJECT (RESERVED INITIALIZE 1) K28.5 0297 0073 0167 
BROADCAST (ЕХРАМОЕН) кшз 0017 л м OPEN_REJECT (RESERVED STOP 0) K28.5 0297 031.4 0073 
BROADCAST (RESERVED 2) киз | ому | ому | 0067 ОРЕМ ВЕЗЕСТ (RESERVED STOP 1) ков | 0297 | 0047 | 0274 
BROADCAST (RESERVED 3) к®в | 007 | 0167 | 0020 OPEN_REJECT (RETRY) квз | рэт | ога | омо 
BROADCAST (RESERVED 4) кв5 | 0047 | 0297 0300 ОРЕМ ВЕЈЕСТ (STP RESOURCES BUSY) кёз | ома | 0274 | 0014 
BROADCAST (RESERVED CHANGE 0) кБ | 0047 | омо | ома ОРЕМ АЕЈЕСТ (WRONG DESTINATION) квз | рия | ош? | омо 
BROADCAST (RESERVED CHANGE 1) K285 0047 0274 0073 SOAF K28.5 0240 0300 001.4 
CLOSE (CLEAR AFFILIATION) K28.5 0020 0073 0047 АСК к28.5 001.4 001.4 001.4 
CLOSE (NORMAL) квз | 0020 | 0300 | 0274 CREDIT_BLOCKED K285 0014 0073 0300 
CLOSE (RESERVED 0) кёз | оого | oma | 050 | | DONE (acmak TIMEOUT) киз оюл 9014 0н? 
CLOSE (RESERVED 1) кыз | соо | 007 | oma DONE (CREDIT TIMEOUT) K285 D300 0073 0274 
EOAF кёз | омо | ооз | ома | [DONE NORMA [кез ED ED 0900 
ERROR кёз | ооо | ooa | 0297 DONE (RESERVED 0) ков 0300 De7 | 0014 
HARD_RESET “кв | оого | оого | Dozo DONE (RESERVED 1) квз 7] 0297 оза 
NOTIFY (ENABLE SPINUP) k285 | 0913 | 0913 0813 DONE (RESERVED ПМЕОЏТ 0) кзз 0300 0274 0297 
DONE (RESERVED TIMEOUT 1) кгз озо 0214 омо 
BOF | кэз | омо | ов? | 0274 
NAK (CRG ERROR) 9 0014 0274 ош? 
МАК (RESERVED 0) K28.5 001.4 0314 0297 
NAK (RESERVED 1) K28.5 001.4 0047 0240 
NAK (RESERVED 2) ` | kas | D04 | об | oa | 
RRDY (NORMAL — kas | oma | омо | 067 | 
RADY (RESERVED 0) кгз 0014 бого Daa 
RRDY (RESERVED 1) K28.5 001.4 D300 2020 
SOF K28.5 0240 0047 0073 
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现 过 程 与 PCIE 和 USB 都 不 同 。 在 加 电 之 后 ，SATA 链 
路 的 双方 会 相互 发 送 ALIGN (0) 有 续集 信号 ， 来 相 
互 探测 链 路 对 方 的 设备 是 否 存在 并 且 已 经 开始 工作 。 
SATA 有 多 代 ，G1 代 SATA 速 率 只 有 1.5Gbit/s，G2 代 为 
3Gbit/s，G3 代 则 为 6Gbit/s。 截 至 当前 ，SATA 最 高 速 
率 截止 在 了 6Gbit/s， 而 且 暂 时 没有 演化 到 G4 的 迹象 
(SAS 已 经 演化 到 了 G4 代 ) ， 因 为 SATA 机 械 硬盘 的 
性 能 增长 已 经 达到 了 瓶颈 。 加 之 SATA 固 态 硬 盘 有 被 
PCIE 接 口 的 NVMe 协 议 ( 相 对 于 SCSI 协 议 ) 的 固态 
盘 所 替代 的 趋势 ， 所 以 SATA G4 标准 暂时 处 于 观望 
态势 。 

而 SATA 体 系 是 后 向 兼容 的 ， 意 味 着 G3 兼容 G1 和 
G2， 所 以 当 SATA 链 路 加 电 之 后 ， 双 方 并 不 知道 对 方 
运行 在 何 种 速率 上 ， 不 能 直接 发 送 业 务 层 数 据 ， 而 要 
先 探知 对 方 是 否 存 在 ， 也 就 是 按照 一 定 的 时 间 间 隔 发 
送 一 批 ALIGH (0) 有 续集 (4 字 节 ) 。 接 收 方 此 时 由 
于 并 不 知道 对 方 的 链 路 速率 ， 但 是 这 并 不 妨碍 其 电路 
探测 到 线路 上 有 一 堆 脉冲 电压 出 现 ， 这 相当 于 高 度 近 


视 者 即便 没有 戴 眼镜 〈 双 方 速 率 和 相位 尚未 同步 ) ， 
但 是 并 不 妨碍 其 能 够 分 辨 眼前 是 否 有 物品 在 晃动 (% 
路 上 有 间歇 性 信号 脉冲 ) 。 双 方 并 不 知道 这 批 脉 冲 是 
ALIGN (0) 有 续集 ， 也 不 需要 知道 ， 因 为 总 要 发 送 
点 信号 过 去 ， 所 以 规范 制定 者 就 直接 拿 ALIGN (0) 
有 续集 来 充当 信号 源 了 。 

SATA 链 路 加 电 后 ，SATA 主 控 ， 也 就 是 Initiator 
端 会 发 送 COMRESET 序 列 。 该 序列 由 6 组 间隔 时 间 
(Idle Time) 为 320 ns 的 脉冲 信号 组 成 ， 每 组 脉冲 持 
续 时 间 (Burst Time) 160.67 ns， 也 就 是 每 隔 320 ns 
就 发 送 160.67 ns 的 信号 ， 信 和 号 就 是 ALIGN (0) 有 续 
集 信 号 〈 共 40 位 ) ， 所 以 在 160 ns 的 时 间 内 会 发 送 
多 个 ALIGN (0) 有 续集 。SATA 的 Target 端 ， 也 就 是 
SATA 设 备 端 ， 加 电 之 后 处 于 静默 监听 状态 ， 不 会 发 
出 任何 信号 。 当 它 接收 到 Init 端 发 送 的 这 种 形式 的 脉 
冲 后 ， 便 回复 以 同样 的 序列 给 Init 端 ， 只 不 过 Tgt 发 送 
给 Init 的 序列 被 称 为 COMINIT， 其 与 COMRESET 完 全 
相同 ， 只 不 过 由 于 方向 不 同 而 被 附 以 不 同 的 名 称 罢 
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了 。 然 后 ，Init 端 便 知道 了 Tgt 端 的 存在 ， 然 后 回复 以 
COMWAKE 序 列 。COMWAKE 序 列 则 是 每 隔 106.67 
ns 发 送 106.67 ns 的 ALIGN (0) 信号 。Tgt 端 接收 到 
COMWAKE 脉 冲 序列 之 后 ， 回 应 以 6 个 COMWAKE 
序列 。 如 果 Tgt 端 是 机 械 硬 盘 ， 在 这 期 间 后 台 会 开始 


控制 盘 片 电机 开始 旋转 〈SATA 机 械 盘 加 电 后 并 不 会 
自动 开始 旋转 盘 片 ， 而 是 受到 COMWAKE 序 列 控制 
的 ) ， 同 时 SATA 接 口 物理 层 电路 会 进入 链 路 速率 协 
商 过 程 ， 相 当 于 双方 不 断 更 换 眼 镜 的 镜片 (从 G1 代 的 
最 低速 率 开始 发 送 ALIGN (0) 有 续集 ， 双 方 进行 时 


FF 35 105 1 EJ 10 106 = Е7 10 10 
(RD) (RD-) (RD-) (RD+) (RD-) (RD:) 

700 0 О 082 346 EJ 

DOLO 1 ОАЕ 351 АЕ 

10020 2 ФАО 352 ЗАР 

Б] 3 363 АЗ 2АЗ 

Do40 + 0AB 354 ЗАВ 

1050 B 365 TAS 2А$ 

0060 6 366 oas 2А6 

тото 7 EJ r 287 

1080 s 0А7 358 ЗАТ 

БЛ] ° EJ r ES 

0100 А 36А САА АА 

опо B EJ ЕБ 288 

ро с EJ АС ЈАС 

0130 D мр 080 28р 

0140 Е АЕ OE 28Е 

р150 Е ОВА. 345 2BA 

D160 10 05 EJ 286 

0170 11 m mi 2B1 

0180 12 ЕЯ 082 282 

0190 四 353 09у 293 

0200 m ЕД F ЕЛ 

D210 15 355 095 295 

0220 16 356 096 ЕЛ 
17 297 

7240 18 3 Eg EJ 

D250 19 359 09 299 

0260 ЈА ЗЗА OA 

0270 1B ов ЕП 

D280 中 эс WC 

0290 1D 0D 362 

300 1E ФЕ 361 

рио 1F 085 МА 

1004 30 139 266 

1014 81 TE ЕЛ 

702 4 32 12р 2р? А 

D034 33 2 123 АЗ 

DO44 84 128 2D4 At 

1054 5 EJ 125 А 165 с 

064 86 EZ 126 АВ 166 06 

1074 7 207 138 A 197 с? 

DOSA 图 127 ЕЛ AS 167 св 

1094 89 2Е9 129 ЕЈ 169 со 

0104 ЗА EA А АА 16A СА 

DILA ЗВ 20B 105 АВ 14B св 

D124 sc ЛЕС 0с АС 1С сс 

БЕ] зр 20р 100 Ар нр ср 

D144 Е 2СЕ WE AE ME СЕ 

D154 ЗЕ BA 265 АР ПА с 

D164 90 136 209 Во 176 р 

DITA 91 FI 131 ЕП 171 Di 

рі84 92 m 132 ЕЯ 172 D2 

0104 °з 203 из вз 153 D3 

БЕ С] ЕЛ E B 174 D: 

БЛ 55 205 115 B5 155 D5 

0224 96 206 116 Bé 156 D6 

0234 97 17 28 B7 157 07 

D4 98 133 2с ЕЈ 173 Ds 

D254 9 209 по B9 159 D 

0264 ФА DA ПА ВА БА DA 

D274 в 11B 2E4 ВВ 158 DB 

0284 СУ De uc Bc [ЕЈ DC 

D94 эр пр =] Бр DD 

D304 ЗЕ ПЕ 2Е1 ВЕ БЕ DE 

TD314 ОЕ 135 2СА BF 175 DF 


图 7-151 DD 字符 编码 表 (1) 


钟 同步 ， 确 认 后 发 送 ALIGN (1) 有 续集 通知 对 方 ， 
然后 继续 测试 下 一 档 速 率 ， 一 直 测 试 到 任何 一 方 所 支 
持 的 最 大 速率 为 止 ) ， 直 到 对 焦 准确 为 止 。 具 体 协 商 
过 程 在 我 们 下 文 结合 SAS 场 景 一 并 介绍 ， 这 里 就 不 再 
单独 介绍 了 。 


特 珠 字符 名 称 КОЙ RDR 
16 进 制 16 进 制 
K280 (1C) 0BC 343 
K28.1 (3C) 276 183 
K282 (50) 2BC 143 
K283 (7C) 33C 0C3 
K284 (9С) 13C 263 
K285 (BC) 17C 283 
K286 (DC) 1ВС 243 
K28.7 (ЕС) ос 383 
K23.7 (F7) 057 ЗАВ 
077 (ЕВ) 05В 3A4 
K29.7 (FD) 05D 3A2 
K30.7 (FE) Е ЗАІ 


图 7-152 DD 字符 编码 表 (2) 


提示 > 


任何 时 候 Init 端 控制 器 发 送 COMRESET 序 列 ， 


接收 方 的 PHY 必 须 对 自己 内 部 的 状态 进行 清除 操 
作 ， 也 就 是 真 的 会 发 生 Reset 操 作 。 之 后 双方 需要 
重新 探测 对 方 的 存在 以 及 执行 速率 协商 过 程 。PHY 
Reset 可 以 是 Init 端 电路 自行 发 出 ， 比 如 检测 到 链 路 
信号 质量 变 得 很 差 ， 错 误 率 异常 增加 等 ， 也 可 以 是 
由 Init 端 主 控制 器 固件 在 检测 到 一 些 特定 输入 因素 
后 触发 ， 比 如 用 户主 动 要 求 Reset 某 个 PHY 等 。 单 纯 
的 PHY Reset 并 不 会 丢失 上 层 未 发 送 完毕 的 业务 数 
据 ，PHY Ready 后 上 层 会 继续 发 送 。 


第 7 章 ЕО: 


图 7-153 所 示 为 COMINIT/COMRESET、 
COMWAKE 和 COMSAS 序 列 的 脉冲 间隔 时 间 一 览 。 其 
中 COMSAS 是 专门 为 SAS 链 路 准备 的 序列 。Negation 
Time 指 的 是 这 串 脉冲 发 送 完 后 的 静默 时 间 ， 如 果 对 方 
没有 任何 回应 ， 则 Init 端 需要 不 断 以 Negation Time 为 
间隔 发 送 COMRESET 序 列 。 图 7-154 所 示 为 三 种 序列 
的 脉冲 方式 可 视 化 示意 图 。 

我 们 再 来 看 一 下 SAS 主 控 连接 SAS 设 备 时 的 设备 
发 现 过 程 。 与 SATA 不 同 的 是 ， 不 管 是 Init 端 还 是 Tgt 
端 ， 双 方 的 SAS PHY 都 会 主动 发 出 COMINIT 序 列 。 
收 到 对 方 的 序列 之 后 ， 本 方 会 发 出 COMSAS 序 列 ， 
收 到 之 后 ， 双 方便 各 自 开 始 进入 速率 协商 过 程 〈 下 文 
介绍 ) 。SAS Tgt 端 只 会 发 出 一 次 COMINIT 序 列 ， 如 
果 对 方 加 电 迟 组 导致 未 发 出 序列 信号 ， 那 么 Tgt 端 会 
静默 。 所 以 SAS Init 端 和 SXP 上 的 PHY 加 电 后 如 果 没 
有 收 到 对 端的 序列 信号 ， 会 持续 以 一 定时 间 间 隔 发 送 
COMINIT 序 列 以 等 待 对 端 设备 的 回应 。 

再 来 看 一 下 使 用 SAS Init 主 控 连 接 SATA Tgt 端 时 
的 设备 发 现 过 程 。 如 图 7-156 所 示 ，SATA Tgt 端 的 PHY 
初始 时 静默 ，SAS Init 端 的 PHY 先 发 出 COMINIT 序 列 

(或 者 说 COMRESET 序 列 ) , SATA Tgt 端 收 到 后 回应 
以 COMINIT 序 列 ， 但 是 此 时 SAS Init 端 的 PHY 并 不 知 
道 对 端 是 SAS 还 是 SATA 设 备 ， 因 为 SAS 设 备 初始 时 也 
会 发 送 COMINIT 序 列 ， 无 法 区 分 。 所 以 SAS Init 端 先 
假设 对 端 是 一 个 SAS 设 备 ， 所 以 它 开始 发 送 COMSAS 
序列 。SATA Tgt 端 的 PHY 无 法 识别 COMSAS 序 列 ， 所 
以 静默 不 回应 (有些 SATA Tgt 端 了 PHY 针对 COMSAS 会 
回应 COMINIT 序 列 ， 如 图 右 侧 所 示 ) 。SAS Init 端 的 
PHY 等 待 超时 后 ， 便 知道 了 : 对 方 很 有 可 能 是 SATA 
设备 ， 亦 或 者 ， 对 方 是 个 SAS 设 备 但 是 由 于 某 种 异常 
原因 ， 没 有 继续 响应 。 所 以 SAS Init 被 设计 为 发 送 一 
个 COMWAKE 序 列 来 试探 对 方 。 如 果 对 方 真 的 是 一 个 
SATA 设 备 ， 那 么 其 会 返回 6 个 COMWAKE， 这 下 SAS 
Init 端 就 知道 了 真相 。 如 果 对 方 是 一 个 SAS 设 备 ， 那 么 
不 会 响应 COMWAKE， 继 续 静 默 ， 此 时 SAS Init 端 会 


Signal Bursttime (ns) Idle time (ns) Negation time (ns) 

106.65 min 106.65 min 186.65 min 
COMWAKE 106.67 nom 106.67 nom 186.67 nom 
106.68 max 106.68 max 186.68 max 
106.65 min 319.97 min 533.28 min 
COMINIT/RESET 106.67 nom 320.00 nom 533.33nom 
106.68 max 320.03 max 533.37 max 

106.65 min 959.90 min 1599.84 min 

COMSAS 106.67 nom 960.00 nom 1600.00 nom 

106.68 max 960.10 max 1600.16 max 


nom : nominal 的 缩写 ,意思 是 “ 标 称 ” 


图 7-153 ”三 种 序列 的 脉冲 间隔 时 间 一 览 
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图 7-156 ”SAS 主 控 连 接 SATA 设 备 时 的 设备 探查 过 程 


继续 按照 一 定时 间 间 隔 不 断 地 重新 发 送 COMINIT 序 列 
直到 对 端 设备 响应 为 止 。 

完成 了 设备 探测 ， 主 控 端 知道 了 对 方 的 设备 类 型 
是 SAS 还 是 SATA， 之 后 双方 立即 进入 速率 协商 过 程 。 
我 们 先 来 看 一 下 纯 SATA 场 景 (SATA 主 控 +SATA 设 
备 ) ， 如 图 7-157 所 示 。SATA 的 速率 协商 以 Tgt 端 为 主 
导 ，Tgt 端 向 Init 端 发 送 完 COMWAKE 序 列 之 后 ， 便 开 
始 以 其 所 能 支持 的 最 高 速率 连续 发 送 54.6 u s 的 ALIGN 
(0) 有 续集 如果 是 G1 代 速率 1.5Gbit/s 的 话 ， 这 54.6 
u s 会 发 送 2048 个 ALIGN (0) ) 。 同 时 ，SATA 主 控 收 
到 SATA Tgt 端 发 来 的 COMWAKE 序 列 之 后 ， 也 开始 以 
主 控 所 支持 的 最 低速 率 连 续 不 断 发 送 D10.2 字 符 〈 前 文 
中 已 经 提 到 过 该 字符 的 特殊 性 ) 。Init 端 一 侧 的 接收 端 
PHY 必 须 被 设计 为 在 54.6 bh s 周 期 内 把 其 所 支持 的 所 有 
速率 都 轮流 切换 一 遍 ， 然 后 从 线路 上 采样 信号 、 同 步 
时 钟 并 解析 出 ALIGN (0) 有 续集 ， 因 为 Init 端 并 不 知 
道 Tgt 端 支持 的 最 高 速率 会 是 多 少 。 

所 以 ，Tgt 按 照 它 自己 最 高 速率 发 送 给 Init 端 的 
ALIGN (0) ， 总 能 被 Init 端 在 某 个 时 间 内 扫描 到 ， 
对 上 焦 ， 然 后 看 清楚 其 中 的 有 续集 ， 一 旦 Init 看 清 之 


d10.2 
at lowest rate 


SATA host 
(initiator phy) 


SATA device 
(target phy) 


COMWAKE 


ALIGNs 
at highest rate rates... 
(546 us) 


后 ， 立 即 以 该 速率 向 Tgt 发 送 连续 的 ALIGN (0) 。 
Tgt 收 到 Init 端 发 来 的 ALIGN (0) ， 证 明 两 端的 速率 
终于 对 上 了 。 于 是 Tgt 端 开始 发 送 SATA_SYNC 字 符 集 
(图 中 绿色 部 分 ， 相 当 于 Idle 码 )，Init 端 收 到 后 也 开 
始 发 送 SATA_SYNC， 至 此 速率 协商 成 功 。 成 功 信 号 
会 被 电路 通告 给 上 层 电路 模块 ， 上 层 就 可 以 下 发 一 些 
业务 层 的 帧 下 来 了 。 

我 们 再 来 看 一 下 纯 SAS 场 景 ， 如 图 7-158 所 示 。 
进入 速率 协商 阶段 之 后 ，SAS Init 和 Tgt 端 同时 以 各 自 
所 支持 的 最 低速 率 开 始 发 送 ALIGN (0) ， 并 且 以 相 
同 的 速率 尝试 接收 信号 〈 这 一 点 与 SATA Host пи 
不 同 ， 后 者 会 不 断 地 以 各 档 位 速率 切换 扫描 ) 。 如 果 
双方 各 自 都 在 SNLT (Speed Negotiation Lock Time) 
时 间 内 收 到 对 方 发 来 的 ALIGN (0) ， 那 么 它们 各 
自转 为 开始 发 送 ALIGN (1) 有 续集 ， 一 直到 SNTT 
(Speed Negotiation Transmit Time) 时 间 到 达 为 止 。 
如 果 双 方 各 自 接收 到 了 对 方 的 ALIGN (1) ， 也 就 
是 说 如 果 自 己 既 在 发 送 ALIGN (1) 也 同时 接收 到 
ALIGN (1) ， 则 表示 该 速率 双方 是 共同 支持 的 ， 双 
方 各 自 记 录 下 这 个 结论 到 各 自 的 状态 寄存 器 中 。 然 


ALIGNs Non-ALIGNs 
at detected rate at detected rate 


SATA device locks 


2048 ALI 
„lower ALIGNS ла rate 
atn гаје 
(54.6 us) 


图 7-157 纯 SATA 场 景 下 的 速率 协商 过 程 


2 大话 计算 机 一 一 计算 机 系统 底层 架构 原理 极限 剖析 


后 ， 经 过 500 u s 的 RCD (Rate Change Delay) 时 间 ， 一 提 的 是 ， 双 方 是 在 相同 的 时 刻 开 始 进入 速率 协商 
双方 各 自 将 自己 的 速率 提升 到 下 一 档 自己 支持 的 速率 ”过 程 的 。 这 一 点 见 图 7-155 右 侧 的 time z 处 ， 较 晚 发 
上 ， 重 新 开始 上 述 过 程 ， 一 直到 其 中 一 方 达到 了 自己 。 出 COMSAS 序 列 的 一 方 会 知道 自己 相 比 对 方 晚 发 出 
最 高 速率 档 位 为 止 。 了 COMSAS 序 列 ， 所 以 ， 在 自己 发 送 完 COMSAS 序 

图 7-159 所 示 为 一 个 实际 的 协商 过 程 。PHY Ај] 。” 列 之 后 就 立即 进入 速率 协商 过 程 ， 而 接收 方 接收 到 
时 支持 G1、G2 和 G3 档 位 的 速率 ， 而 PHY B 只 支持 G2 COMSAS 序 列 之 后 也 立即 进入 ， 这 样 双 方 就 可 以 保证 
(3Gb/s) 而 不 支持 G1 或 者 G3 速率 。SAS 双 方 自觉 开 几乎 同时 进入 速率 协商 阶段 。 说 几乎 同时 ， 是 因为 本 
始 以 G1、G2、G3 档 位 轮流 切换 执行 速率 匹配 。 值 得 。 方 发 出 的 COMSAS 序 列 到 达 对 方 也 需要 一 定 的 时 间 ， 
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图 7-159 ”SAS 链 路 速率 协商 实际 过 程 示 意图 


但 是 这 个 时 间 相 比 速率 协商 过 程 的 时 间 窗 口 而 言 可 以 忽 
略 。 双 方 齐头并进 走 入 协商 过 程 ， 这 个 前 提 很 重要 ， 
为 双方 会 各 自 抬 表 计算 G1、G2、G3 协 商 的 时 间 窗 口 。 

双方 先进 入 G1 档 位 协商 阶段 。 由 于 PHY A 支持 G1 
档 ， 所 以 其 先 以 G1 速率 发 送 ALIGN (0) 并 以 G1 速 率 
接收 。 而 PHY B 不 支持 G1 档 ， 所 以 在 G1 时 间 窗 口内 
PHY B 保 持 静 默 。PHY A 接收 端 并 没有 接收 到 任何 信 
号 ， 时 间 窗 过 了 ， 所 以 PHY A 知道 了 一 个 事实 就 是 对 
方 不 支持 G1 档 位 。 

然后 ， 时 间 到 达 了 G2 档 位 协商 时 间 窗 ， 由 于 PHY 
B 支 持 G2 速 率 ， 所 以 其 开始 以 G2 档 位 发 送 ALIGN (0) 
并 同时 以 G2 速率 接收 ，PHY A 也 以 G2 档 位 发 送 和 接 
收 。 这 次 双方 终于 对 上 了 眼 ， 并 在 SNLT 时 间 内 检测 到 
对 方 发 送 的 ALIGN (0) ， 并 立即 向 对 方 发 送 ALIGN 
(1) 一 直 持续 到 SNTT 时 间 的 末尾 。 双 方 收 到 对 方 的 
ALIGN (1) ， 便 知道 G2 速率 双方 都 支持 。 然 后 时 间 
流逝 到 了 G3 档 位 窗口 ， 由 于 PHY B 不 支持 G3， 所 以 
其 在 G3 协 商 窗口 期 间 保持 静默 ， 这 样 ，PHY A 收 不 到 
РНУ B 的 任何 信息 ， 所 以 PHY A 在 G3 档 位 协商 失败 。 
PHY A 知 道 了 一 个 事实 那 就 是 PHY B 不 支持 G3 以 及 更 
高 速率 档 位 ， 所 以 PHY A 降 速 到 上 一 个 协商 成 功 的 最 
高 档 位 ， 也 就 是 G2， 继 续 发 送 ALIGN (0) 序列 。 同 
时 PHY B 也 发 出 ALIGN (0) ， 并 可 以 接收 而 且 成 功 解 
析出 PHY A 发 出 的 ALIGN (0) ， 于 是 双方 在 SNLT 时 
限 前 发 出 ALIGN (1) ， 协 商 成 功 ， 并 最 终 以 该 速率 运 
行 。 总 结 一 下 ， 双 方 从 最 低档 位 的 速率 开始 按照 固定 
时 间 窗 协商 ， 每 协商 成 功 一 个 就 跳 到 下 一 个 时 间 窗 继 
续 协 商 ， 直 到 达到 其 中 一 方 的 最 大 支持 档 位 为 止 。 双 
方 互相 记 住 那 些 协商 成 功 的 档 位 ， 并 在 链 路 质量 下 降 
时 可 以 自动 或 者 由 上 层 控制 将 速率 降下 来 重新 建 链 。 


如 果 你 仔细 思考 了 ， 会 发 现 上 面 这 个 过 程 中 有 
个 很 大 的 坑 。 当 然 ， 冬瓜 哥 很 少 挖 坑 ， 就 算 控 个 坑 
也 绝对 会 填 上 。PHY B 既 然 只 支持 G2 档 位 ， 那 么 它 
怎么 会 知道 还 存在 G3 或 者 更 高 的 档 位 呢 ? PHY B 对 
应 的 设备 出 厂 时 ， 可 能 G3 标 准 还 没 被 制定 出 来 呢 。 
SAS 规 范 制定 者 早已 想到 了 这 一 点 。 所 以 规范 中 规 
Ж: 任何 SAS PHY 电 路 在 协商 时 ， 如 果 遇 到 上 比 自己 
支持 的 档 位 低 的 协商 时 间 窗 ， PHY 必 须 在 这 段 时 
间 内 保持 静默 ; 同时 ， 在 自己 支持 的 档 位 协商 完毕 
之 后 ， 继 续 在 下 一 个 时 间 窗 内 保持 静默 ( 如 果 在 接 
收 端 采样 不 到 ALIGN (0/1) 的 话 ) ; 虽然 自己 并 
不 知道 对 方 是 否 会 支持 到 更 高 档 位 ， 也 不 知道 再 高 
一 级 的 档 位 速率 是 多 少 ， 但 是 只 要 自己 多 保持 静默 
一 个 时 间 窗 ， 那 么 对 方 一 看 无 人 响应 ， 自 然 会 回 退 
到 上 一 个 档 位 。 反 观 本 例 即 可 发 现 ，PHY B 只 支持 
G2， 那 么 它 会 明确 知道 G2 的 上 一 代 是 G1， 那 么 它 
会 在 第 一 个 协商 时 间 窗 保持 静默 而 让 G1 协商 失败 。 
G2 时 间 窗 协商 成 功 后 ， 它 按照 规范 ， 多 保持 一 个 时 
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间 窗 的 静默 ， 所 以 最 终 PHY A 回 退 到 了 G2 档 位 重新 
协商 。 如 果 PHY A 最 高 支持 到 G2 而 不 是 G3， 那 么 在 
G2 协商 成 功 后 ，PHY A 就 不 会 切换 到 G3 速 率 ， 而 会 
继续 在 G2 档 位 上 发 送 上 层 业 务 层 数据 帧 ， 使 得 PHY 
了 B 在 其 接收 端 能 够 采样 到 有 意义 的 数据 帧 ， 则 PHY 
也 也 就 不 会 认为 对 端 还 在 继续 协商 ， 而 是 认为 当前 
链 路 已 经 最 终 以 G2 速 率 运行 了 。 


当然 ， 在 PHY A 最 终 回 退 到 G2 速率 档 位 重新 协 
商 时 ， 也 有 可 能 因为 各 种 原因 PHY B 没 有 能 够 成 功 采 
样 出 PHY A 发 送 的 有 续集 并 及 时 回复 ALIGN (1) 。 
此 时 双方 都 会 感知 到 链 路 协商 失败 ， 会 重新 发 起 
COMINIT 序 列 重新 开始 协商 过 程 ， 如 图 7-160 所 示 。 

对 于 那些 端口 上 没有 连接 任何 设备 的 PHY， 如 果 
该 PHY 隶 属于 SAS Init 端 ， 比 如 SAS HBA， 或 者 隶属 
于 SXP， 那 么 其 底层 会 每 隔 一 段 时 间 就 发 出 COMINIT 
序列 。 这 样 ， 一 旦 有 SAS 设 备 被 动态 插入 这 个 PHY， 
那么 新 插入 设备 就 会 检测 到 该 COMINIT 序 列 从 而 进入 
设备 探查 和 速率 协商 过 程 。 

SAS 规 范 将 SAS 链 路 在 初始 化 时 使 用 的 
COMINIT、COMAWAKE、COMSAS 等 序列 ， 以 及 
速率 协商 时 采用 的 序列 ， 统 称 为 带 外 Out-of-Band， 
ООВ) 信号 。 这 样 的 称呼 其 实 并 不 准确 ， 带 外 信号 一 
般 指 与 数据 信号 位 于 不 同 链 路 上 的 带 外 控制 信号 。 而 
SAS 体 系 里 的 带 外 信号 显然 也 是 利用 SAS 链 路 发 送 的 ， 
但 是 COMINIT 这 些 序列 的 作用 仅仅 提供 类 似 电报 似 的 
脉冲 供 对 方 识别 ， 并 不 是 精确 识别 序列 中 的 1 和 0， 所 
以 从 这 个 意义 上 说 ， 称 之 为 带 外 信号 也 算 合 理 。 


SAS 3.0 以 上 的 规范 中 ， 链 路 初始 化 时 在 执行 速 
率 协 商 过 程 之 后 ， 还 需要 执行 链 路 训练 过 程 。 由 于 
3.0 标 准 下 单 PHY 速 率 已 经 达到 12Gbit/s，4.0 规 范 下 
则 到 了 24Gbit/s， 如 此 高 的 速率 ， 紧 靠 预 加 重 /去 加 
重 已 经 无 法 满足 信号 完整 性 要 求 ， 还 必须 采用 均衡 
器 来 对 线路 上 的 信号 进行 重新 整形 增强 。 均 衡器 可 
以 根据 线路 上 历史 的 信号 对 后 续 信号 的 影响 程度 ， 
计算 出 应 该 对 后 续 信 号 进行 怎样 的 波形 增强 ,而 且 
参数 是 可 以 动态 变更 的 。 链 路 训练 的 目的 ， 就 是 双 
方 各 自发 送 一 批 设 定 好 的 1 和 0 的 信号 组 合 ， 然 后 让 
双方 各 自 校准 本 地 的 均衡 器 参数 以 达到 最 佳 的 信号 
质量 ,该 过 程 又 被 称 为 Back Channel Training。 训 练 
过 程 中 固件 可 以 根据 对 方 的 反馈 信息 动态 改变 用 于 
训练 的 信号 流 ， 来 让 对 方 调节 到 更 加 合适 的 参数 。 


双方 成 功 对 焦 之 后 ， 就 可 以 看 清 并 解析 对 方 发 送 
的 精确 到 位 的 各 种 数据 包 了 。 速 率 协商 结束 之 后 ， 双 
方 PHY 的 物理 层 会 向 上 层 返 回 一 个 协商 成 功 信号 ， 这 
样 上 层 就 可 以 下 发 数据 包 了 。 然 而 ， 上 层 并 不 会 立即 
就 下 发 数据 包 ， 那 么 在 这 段 空 白 期 中 ， 如 果 链 路 保持 
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图 7-160 ”最 后 一 步 异常 导致 协商 失败 


静默 ， 双 方 的 通信 就 会 出 问题 ， 因 为 两 边 的 时 钟 会 逐 
渐 不 同步 。 我 们 前 文中 也 多 次 提 到 了 ， 为 了 保证 通信 
双方 的 时 钟 同步 ， 即 便 上 层 没 有 任何 数据 可 传递 ， 也 
要 传递 Idle 序 列 ，SAS 物 理 层 也 是 这 么 做 的 。 所 以 ， 
速率 协商 结束 的 一 段 时 间 内 物理 层 会 立即 相互 传递 
Idle 序 列 。Idle 序 列 就 像 空 间 中 的 空气 一 样 ， 只 要 是 没 
有 被 物体 占据 的 地 方 ， 全 要 被 Idle 占 据 ; Idle 和 上 层 数 
据 包 就 像 水 也 鱼 的 关系 。 

提示 * 

对 于 SATA 链 路 ， 其 Idle 码 (也 就 是 SATA_ 
SYNC 有 续集 ) 为 K28.3 D21.4 D21.5 D21.5。 而 对 
于 SAS 链 路 ， 标 准 中 并 没有 规定 Idle 码 。 实 际 上 ， 
链 路 双方 的 PHY 在 空闲 时 可 以 发 送 任意 字 节 ， 只 要 
这 些 字 节 被 8/10bit 编 码 之 后 不 与 其 他 有 效 续 字符 相 
同 即 可 。 由 于 底层 电路 会 对 这 些 字 符 加 扰 处 理 以 保 
持 足 够 多 的 跳 变 ， 所 以 接收 方 依然 可 以 从 这 些 杂 乱 
的 数据 中 提取 出 时 钟 用 于 同步 本 地 时 钟 。 在 实际 的 
产品 实现 中 ， 厂 商 一 般 直 接 发 送 全 0 的 字 节 作 为 Idle 
码 ， 即 便 如 此 ， 底 层 加 扰 之 后 依然 会 保证 其 产生 足 
够 的 信号 跃 变 ， 所 以 通信 的 一 方 仍然 可 以 用 它 来 同 
步 对 方 的 时 钟 。 


上 层 下 发 的 第 一 个 数据 包 ， 或 者 说 数据 帧 (SAS 
规范 制定 者 的 口味 是 帧 ， 下 文 就 入 乡 随 俗 ) 为 Identify 
Address Frame， 双 方 各 自 向 对 方 发 送 。 当 双方 各 自 
戴 上 了 眼睛 ， 视 线 变 得 清晰 之 后 ， 要 做 的 当然 是 先 看 
清楚 对 方 的 样子 了 。Identify Address Frame 的 目的 就 


是 向 对 方 做 自我 简介 : 设备 大 类 型 〈 最 终 设备 还 是 交 
换 器 ) ， 如 果 是 最 终 设备 那么 是 哪 种 小 类 型 〈 比 如 
是 Init 端 还 是 Tgt 端 ) ，SAS 地 址 和 PHY ID Identify 
Address Frame 只 在 链 路 两 端 之 间 有 效 ， 其 并 不 会 被 路 
由 ， 如 图 7-161 所 示 。 


Bit7 6 5 4 3 2 £ 0 

Byte0 | Restricted | Device Type Address Frame Type = 0 

1 Restricted 

2 Reserved 55Р STP | SMP | Restricted 

Initiator | Initiator | Initiator 
3 Reserved 55Р STP | SMP | Restricted 
Target | Target | Target 

4-11 Restricted 
12-19 SAS Address 

20 PHY Identifier 
21-27 Reserved 
28-31 CRC 


图 7-161 Identify Address Frame 结 构 


提示 > 


Identify Address Frame 是 由 SAS Init 端 比如 SAS 
HBA 底 层 PHY 中 的 硬件 逻辑 发 出 的 。 不 过 SAS НВА 
的 国 件 可 以 预先 将 一 些 配置 字 写 入 到 该 硬件 相关 寄 
存 器 中 ， 比 如 SAS 地 址 、PHY ID 、 支 持 的 业务 类 
型 等 ， 这 些 都 是 可 配置 的 ( 可 编程 的 ) 。 底 层 硬件 
会 维护 许多 硬 状态 机 ， 根 据 链 路 上 当前 的 状况 来 决 
定 下 一 步 的 动作 。 比 如 当 达 率 协 商 成 功 后 ， 底 层 硬 
件 会 用 一 根 导线 向 上 层 硬件 模块 通报 成 功 信号 ( 比 
如 拉 高 电 平 ) ， 上 层 硬件 逻辑 只 要 看 到 该 信号 为 


高 电 平 ， 那 么 就 自动 进入 “ 待 发 送 Identify Address 
Frame” 状 态 ， 并 尝试 发 出 该 帧 后 进入 “等 待 对 方 
的 Identify 帧 ”状态 ， 当 接收 到 对 方 的 Identify 帧 后 ， 
状态 进入 “已 完成 链 路 初始 化 ”状态 ， 并 向 上 层 反 
馈 该 信号 。 在 任何 高 速 通信 链 路 底层 的 PHY 逻 辑 
中 ， 这 些 状态 机 普遍 存在 着 ， 其 对 应 的 物理 形态 就 
是 硬件 逻辑 电路 ， 如 果 其 是 可 编程 的 ， 则 还 需要 配 
以 用 于 存放 各 种 参数 的 寄存 器 。 


Ж, Device Type 字 段 用 于 表示 设备 大 类 型 。 
Address Frame Type 为 0 表示 该 帧 为 Identify Address 
Frame， 为 1 则 表示 Open Address Frame (SAS 是 基于 
连接 的 交换 ，Open 帧 用 来 和 对 方 建立 连接 ， 详 见 下 
X) o PHY ID 字段 表示 的 是 该 PHY 在 设备 内 部 的 序 
号 ， 一 个 设备 上 可 以 有 多 个 PHY，PHY ID 从 0 开始 顺 
序 编号 ，PHY ID 为 局 部 概念 ， 不 同 设备 上 的 PHY 可 能 
具有 相同 的 PHY ID。 

SSP/STP/SMP 为 SAS 网 络 目 前 可 支持 的 三 种 业务 类 
型 。SSP 表 示 Serial SCSI Protocol， 承 载 SCSI 指 令 和 数 
据 ， 这 也 是 SAS 服 务 的 主流 上 层 业 务 。STP 表 示 SATA 
Tunneling Protocol， 承 载 SATA 命 令 和 数据 ， 按 照 SATA 
的 交互 方式 执行 ， 这 是 SAS 为 了 兼容 SATA 而 设立 的 。 
SMP 表 示 SAS/SCSI Management Protocol， 其 用 于 SAS 
网 络 的 管理 。 这 三 种 业务 各 自 有 不 同 的 交互 方式 以 及 
数据 帧 格式 ， 设 备 可 以 根据 应 用 场景 被 设计 为 只 支持 
其 中 一 种 或 者 几 种 。 比 如 SAS 硬 盘 就 不 可 能 是 一 个 STP 
Tgt， 只 能 是 SSP Target。 而 SAS HBA 为 了 兼容 SATA， 
目前 的 商业 产品 实现 中 同时 支持 SSP Initiator 和 STP 
Initiator， 同 时 为 了 管理 整个 SAS 网 络 还 必须 支持 SMP 
Initiator。SAS HBA 也 可 以 在 同一 个 端口 上 既 支持 Init 模 
式 和 Tgt 模 式 。 而 SAS SXP 只 是 一 个 交换 器 ， 所 以 其 只 
支持 SMP Target， 或 者 最 多 还 支持 SMP Initiator 〈 比 如 
有 些 高 级 的 SXP 可 以 行使 一 些 网 络 管理 功能 ) 。 任 何 
SAS 设 备 都 可 以 选择 支持 SMP Target， 只 不 过 实际 产 
品 中 一 般 只 有 SXP 支 持 SMP Target. 

这 里 的 所 谓 “ 支 持 ”， 就 是 指 其 能 够 处 理 对 应 
格式 的 数据 帧 ， 解 析 其 中 的 内 容 并 执行 ， 而 且 返 回 
携带 有 所 需 内容 的 数据 帧 。 比 如 支持 SMP Tgt， 证 明 
该 设备 内 部 能 够 解析 SMP 数 据 帧 并 执行 其 中 的 SMP 
命令 (比如 Report General 命 令 ， 见 下 文 ) 。Identify 
Address Frame 中 的 6 个 SMP/STP/SSP 相 关 字 段 就 是 为 
了 向 对 方 表示 自己 支持 哪 几 种 上 层 业务 协议 的 。 

Identify 帧 类 似 于 USB 体 系 中 的 Device 
Descriptor， 描 述 设备 的 基本 信息 ， 但 是 前 者 携带 的 信 
息 更 加 基本 。 双 方 都 会 向 对 方 发 送 Identify 帧 ， 接 收 到 
Identify 帧 之 后 ， 会 将 对 端的 这 些 信 息 保存 在 本 地 的 寄 
存 器 中 备用 。 

Identify 过 程 结束 之 后 ， 整 个 SAS 链 路 的 初始 化 工 
作 就 完成 了 。 整 个 过 程 始 于 COMINIT 有 续集 ， 终 于 
Identify Address Frame 的 发 送 ， 让 链 路 的 双方 各 自 知 
道 对 方 的 底细 。 
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7.4.3.4 SAS 网 络 的 初始 化 与 设备 枚 举 


如 图 7-162 所 示 ， 我 们 设 定 一 个 典型 拓扑 来 介绍 
整个 网 络 的 枚 举 过 程 。 一 块 PCIE 接 口 的 SAS HBA 后 
端 级 联 了 两 级 SAS SXP。 每 个 SXP 连 接 一 个 SAS 硬 
盘 。 系 统 加 电 之 后 ，SXP 就 开始 在 每 个 PHY 上 进行 链 
路 初始 化 动作 。 当 然 ， 器 件 是 有 一 定 响应 时 间 的 ， 比 
如 某 个 SAS 硬 盘 可 能 响应 比较 慢 ， 但 是 没关系 ，SXP 
会 不 停 尝 试 发 送 COMINIT， 硬 盘 什 么 时 候 响 应 都 可 
以 。 我 们 假设 所 有 器 件 同 时 开始 响应 。 值 得 一 提 的 
是 ，SAS HBA 加 电 之 后 可 能 并 不 自动 进入 链 路 初始 
化 过 程 ， 而 是 要 等 待 其 驱动 程序 发 送 明确 的 指令 给 
SAS HBA， 让 它 来 使 能 某 个 或 者 全 部 PHY。 具 体 过 程 
不 同 ， 产 品 实现 可 能 不 同 ， 比 如 有 些 产品 分 批 次 使 能 
PHY， 一 次 使 能 一 个 x4 宽 端口 上 的 全 部 PHY。 

驱动 可 以 通过 将 私有 的 命令 用 Admin Queue (7.1.5 
节 中 介绍 过 ) 传递 给 HBA 的 方式 ， 也 可 能 采用 直接 写 寄 
存 器 的 方式 ， 不 同 产品 实现 不 同 。 所 以 ， 图 中 将 HBA 
与 SXP#1 之 间 的 PHY 的 初始 化 操作 标识 成 了 第 @ 步 。 

我 们 假定 HBA 被 配置 为 所 有 PHY 使 用 同样 的 SAS 
地 址 的 模式 。SXP 则 必须 给 所 有 PHY 使 用 相同 的 SAS 
地 址 。 所 以 ，HBA 与 SXP、SXP 之 间 的 级 联 PHY 会 自 
动 组 成 x2 的 宽 端 口 〈 实 际 部 署 中 一 般 采 用 x4 或 者 x8 宽 
端口 ， 此 处 为 了 简略 ) 。 


提示 > 


SXP 内 部 是 有 嵌入 式 CPU 核 心 在 运行 固件 的 ， 
固件 会 将 SXP 上 的 所 有 PHY 在 Identify 过 程 中 识别 到 
的 对 端 设备 的 信息 保存 在 内 部 存储 器 中 备用 。 


当 HBA 检 测 到 对 应 的 端口 已 经 完成 了 所 有 初始 化 
动作 之 后 ， 其 会 向 Host 端 发 出 中 断 信 号 ， 触 发 Host 端 
的 中 断 服 务 程序 运行 从 而 与 HBA 进 行 通信 ， 获 取 到 最 
新 的 事件 信息 PHY RDY (PHY Ready) ， 并 将 HBA 识 
别 到 的 所 连接 的 设备 的 信息 《比如 SXP#1I 的 SAS 地 址 
等 ) 读 取出 来 备用 。 后 续 的 动作 ， 需 要 交 给 Host 端 的 
SAS Bus Driver Į o 

我 们 在 上 一 节 介绍 USB 网 络 时 ， 曾 经 介绍 过 USB 
Bus Driver (有 些 场合 又 被 称 为 USB Core) 这 个 角 
色 。 其 一 个 作用 就 是 负责 对 USB 网 络 的 设备 枚 举 。 而 
ЅАЅИ Н — Я. 


有 些 高 级 的 SAS HBA 卡 可 以 完全 脱离 Host 端 的 
SAS Bus Driver， 而 利用 自己 固件 中 的 枚 举 程序 对 
后 端 SAS 网 络 进行 枚 举 。 本 例 中 我 们 假设 使 用 Host 
端的 SAS Bus Driver 进 行 枚 举 。Host 端 的 SAS Bus 
Driver 对 应 的 物理 实体 是 比如 Linux 操 作 系 统 中 的 
libsas 这 个 运行 库 ， 其 中 包含 了 用 于 SAS 网 络 管理 的 
很 多 函数 。SAS НВА Host Driver 调 用 这 些 函数 来 实 
现 对 SAS 网 络 的 管理 ， 包 括 枚 举 。 
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SAS HBA Host Driver 通 过 对 应 的 函数 接口 将 
OOB_Done/PHY RDY 这 个 事件 以 及 所 识别 到 的 SXP#1 
的 设备 信息 告诉 SAS Bus Driver (比如 对 端的 SAS 地 
址 、 链 路 速率 等 ) 。 后 者 经 过 分 析 发 现 ， 该 SAS 设 
备 (SXP#1) 为 一 个 SXP， 而 且 支 持 SMP Target, JR 
Z, Bus Driver 接 着 要 做 的 就 是 询问 SXP#1: “把 你 的 
基本 信息 报 上 来 ， 把 你 所 识别 到 的 你 连接 的 设备 的 基 
本 信息 也 报 上 来 。” 

为 此 ，Bus Driver 需 要 发 送 一 条 SMP 命 令 ，SMP 
Report General 给 SXP#1。 所 以 Bus Driver 需 要 生成 
一 个 任务 书 ， 也 就 是 Descriptor。Descriptor 中 包含 
有 SXP#1 的 SAS 地 址 以 及 命令 码 。 并 且 该 Descriptor 
发 送 给 HBA Host Driver， 后 者 控制 HBA 取 回 该 
Descriptor 并 执行 。HBA 主 控 执行 IO 请 求 的 过 程 在 前 
文中 已 经 不 厌 其 烦 介绍 过 了 。 这 里 ，SMP 命 令 本 身 
也 相当 于 一 个 IO 请 求 ， 并 不 是 说 只 有 Read 和 Write 才 
ЖОЙ. 

图 7-163 所 示 为 SMP Report General 的 帧 结构 ， 以 
及 其 回应 帧 的 结构 。 值 得 一 提 的 是 ，Bus Driver 并 不 
需要 将 整个 帧 结构 在 Host RAM 中 组 装 出 来 ， 帧 生成 
是 由 HBA 内 部 的 硬件 完成 的 。Bus Driver 要 做 的 只 是 
告诉 HBA 要 发 送 哪个 命令 ， 以 及 命令 中 的 一 些 可 变 字 
段 的 值 以 及 其 他 一 些 参数 即 可 。 

SMP Report General Reguest 


Byte Field(s) 
0 SMP Frame Type (40h) 
1 Function (00h) 
2to3 Reserved 


Report General Response 


Byte Field(s) 
0 SMP Frame Type (41h) 
1 Function (00h) 
2 Function Result 
3 Reserved 
4to5 Expander Change Count 
6to7 Expander Route Indexes 
8 Reserved 
9 Number of Phys 
10 Reserved Configuring | Configurable 
" Reserved 
12 1019 Enclosure Logical Identifier 
20to27 Reserved 
28 to 31 CRC 


图 7-163 SMP Report GeneralResponse 帧 结构 


SMP Report General 帧 中 的 一 些 字段 的 含义 如 下 。 

Frame Туре: 该 字段 表示 SMP 帧 类 型 ，40h 表 示 该 
帧 为 SMP Request 类 帧 ，41h 则 表示 SMP Response 帧 。 

Function: 该 字段 表示 该 帧 是 哪 一 类 SMP 请 求 / 
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回应 。SMP 命 令 种 类 繁多 ，Report General 只 是 其 中 
一 种 。 更 多 种 类 如 图 7-164 所 示 〈 下 页 ) ， 其 中 包含 
信息 读 取 类 命令 (Input 类 ) 和 控制 类 命令 (Output 
类 ) ， 多 的 吓人 。 冬 瓜 哥 并 不 打算 把 所 有 条 目 都 解释 
一 遍 ， 否 则 本 书 就 成 了 协议 手册 了 ， 再 说 冬瓜 哥 也 没 
有 这 个 能 力 把 SAS 协 议 的 边 边 角 角 都 吃透 ， 这 个 活 还 
是 留 给 各 位 比较 合适 。 

SMP Report General 的 回应 帧 中 的 关键 字段 含义 
如 下 。 

Function Result: SMP Request 的 执行 结果 。 冬 瓜 
哥 也 算是 服 了 SAS 这 个 协议 了 ， 定 义 的 太 细 了 ， 
7-165 所 示 为 各 种 可 能 的 结果 一 览 。 


Value Function Result Description 
00h SMP Function Accepted Good result 
Olh Unknown SMP Function | Target doesn't support the request 
02h SMP Function Failed Request failed for some reason 
03h Invalid Request Frame | Request frame length was invalid 
Length 
10h Phy Does Not Exist Phy Identifier was out of range, for 
functions including a Phy Identifier 
иһ Index Does Not Exist Expander Route Index was out of 
range (or the specified Phy doesn't 
have a routing table at all), for func- 
tions including an Expander Route 
Index field 
12h Phy Does Not Support | REPORT PHY SATA requested, but 
no SATA device attached 
13h Unknown Phy Operation | Unknown PHY CONTROL Phy 
Operation request 


Ë87-165 Function Result Code 一 览 


Expander Change Count: 该 值 给 出 了 该 SXP 上 
的 PHY 的 状态 变化 次 数 ， 不 管 哪个 PHY 的 状态 有 变 
化 ，SXP 的 固件 都 会 对 该 值 +1。 其 物理 上 对 应 了 一 个 
16 位 的 计数 器 。SAS 协 议 被 设计 为 只 要 SXP 上 的 任何 
PHY 状 态 发 生 了 变化 ，SXP 便 会 向 所 有 除 本 PHY 之 外 
的 其 他 PHY 发 送 一 个 广播 消息 (Broadcast Change, 
ВС) 。BC 广 播 是 一 个 有 续集 / 原 语 《〈 见 图 7-150) ， 所 
以 其 是 由 底层 PHY 自动 发 出 的 ， 并 不 需要 Host 端 程序 
控制 发 出 。 该 广播 的 目的 是 为 了 告诉 Init 端 该 事件 ， 
并 让 Init 端 做 相应 处 理 。 比 如 如 果 是 新 插入 了 设备 导 
致 链 路 初始 化 完毕 ， 那 么 Init 端 就 需要 获取 新 插入 设 
备 的 信息 使 用 SMP Discovery 命 令 ) 并 向 Host 端 系统 
中 进行 注册 和 驱动 加 载 过 程 ， 如 果 是 拔 出 了 设备 或 者 
链 路 故障 ， 则 Init 端 需要 从 系统 中 外 载 该 设备 的 驱动 
等 相关 资源 。SXP 为 何不 使 用 单 播 来 通知 Init 端 而 必须 
是 广播 呢 ? 很 简单 ， 因 为 整个 SAS 网 络 内 可 能 有 多 个 
SXP，Init 端 可 能 并 不 与 自己 直接 连接 ，SXP 并 不 知道 
网 络 中 的 Init 端 在 何 处 (并 不 知道 哪个 SAS 地 址 是 Init 
端 设备 ) ， 所 以 只 能 广播 了 。 这 也 是 为 什么 SAS 网 络 
不 能 成 环 的 原因 ， 因 为 每 个 SXP 收 到 其 他 SXP 的 广播 
后 ， 会 接力 转发 ， 这 产生 广播 风暴 。 

正 因 如 此 ，SXP 将 “自己 到 底 触发 了 多 少 次 广 
播 ” 这 个 值 告诉 Bus Driver 的 意义 在 于 ，Bus Driver 可 
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以 用 该 值 与 其 之 前 保存 的 值 比较 ， 如 果 发 现 没 有 变 
化 ， 那 么 证 明 该 SXP 上 的 PHY 状 态 并 没有 发 生变 化 ， 
广播 的 源头 并 不 是 该 SXP， 那 么 Bus Driver 也 就 不 需要 
去 针对 其 上 的 每 个 PHY 发 一 遍 SMP Discover 命 令 了 ， 
这 样 节省 了 时 间 。 

Expander Route ш4ехез: 该 值 表示 该 SXP 路 由 表 
中 的 路 由 条 目的 最 大 值 。 

Number of PHYs: 此 字段 给 出 该 SXP 的 PHY ID 的 
最 大 值 。 

Configurable: 如 果 该 值 为 1 则 表示 该 SXP 的 路 由 
表 是 可 以 被 Init 端 的 Bus Driver 更 改 的 ， 如 果 为 0 则 表示 
不 可 更 改 。 一 般 来 讲 ， 为 1 的 话 表示 该 SXP 比 较 傻 ， 
它 并 不 会 根据 所 识别 到 的 设备 信息 更 新 自己 的 路 由 
表 ， 只 能 依靠 Init 端 来 更 新 。 而 如 果 为 0 则 表示 该 SXP 
比较 智能 ， 可 以 自己 学 习 路 由 。 

Configuring: 该 值 为 1 表示 该 SXP 正 在 配置 自己 的 
路 由 表 过 程 中 。 

Enclosure Logical Identifier: 该 值 给 出 了 该 SXP 所 
在 的 机 箱 序号 。 实 际 产 品 中 ， 人 们 一 般 把 SXP 芯 片 和 
硬盘 做 在 一 个 独立 的 硬盘 箱 中 ， 这 个 箱子 叫 作 JBOD 
(Just а Bunch of Disks) ， 或 称 Disk Enclosure。 为 了 
管理 方便 ， 每 个 箱子 都 有 自己 的 编号 。 

细心 的 人 看 到 了 ， 为 什么 SMP Report General 帧 
中 没有 给 出 SAS 地 址 ? 这 样 HBA 如 何 知 道 该 帧 是 发 送 
给 谁 的 ? 还 记得 我 们 在 上 文中 提 到 过 ，SAS 是 基于 连 
接 的 通信 方式 么 ? 在 发 送 SMP Report General 帧 之 前 ， 
HBA 必 须 先 建立 与 目标 设备 上 的 SMP Tgt 的 连接 。 同 
理 ， 如 果 想 给 设备 发 送 SCSI 指 令 了 (封装 在 SSP 帧 
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E) ， 那 必须 先 与 对 方 的 SSP Target 建 立 连接 。 如 果 
对 方 是 SATA 盘 ， 想 给 其 发 送 SATA 指 令 了 【封装 在 
STP 帧 里 ) ， 那 先 得 与 对 方 的 STP Target 建 立 连接 。 这 
与 TCP 协 议 的 做 法 是 类 似 的 ，SMP、STP 和 SSP 相 当 于 
对 方 的 三 个 程序 ， 只 不 过 TCP 的 做 法 是 给 每 个 TCP 包 
都 附 上 一 个 端口 号 用 于 区 分 这 些 程序 ， 这 就 是 基于 包 
的 传输 和 基于 连接 传输 的 不 同 。 

所 幸 的 是 ， 建 立 连接 这 个 工作 并 不 需要 Host 端 程 
序 下 发 一 个 比如 Open Connection 的 IO 命令 给 HBA， 
Host 端 程序 比如 Bus Driver 根 本 无 需 关 心底 层 的 连接 建 
立 过 程 ， 其 依然 是 直接 发 送 SMP 命 令 IO 请 求 给 HBA， 
请 求 中 包含 目标 SAS 地 址 。HBA 会 检查 是 否 与 该 SAS 地 
址 存在 已 建立 的 连接 ， 如 果 有 则 直接 用 该 连接 发 送 ， 
如 果 没有 则 HBA 硬 件 会 主动 发 出 一 个 Open Address 帧 给 
对 应 的 SAS 地 址 。 对 方 回应 Open Accept 有 续集 后 ， 则 
利用 该 连接 发 出 SMP 命 令 。 图 7-166 所 示 为 Open Address 
Frame 的 结构 。 建 链 过 程 对 Host 端 透明 。 

关键 字段 含义 如 下 。 

INITIATOR PORT: 此 字段 为 1 表明 本 Open 请 求 
是 从 Init 端 发 送 到 Tgt 端 的 ， 为 0 则 表示 从 Tgt 端 发 出 到 
Init 端 。 

PROTOCOL: 此 字段 给 出 本 Open 请 求 是 想 连 接 对 
方 的 哪个 处 理 模 块 ， 是 SSP、STP， 还 是 SMP。 连 接 了 
哪个 模块 ， 后 续 发 送 的 数据 帧 就 会 被 导入 到 对 应 的 处 
理 模 块 处 理 ， 也 就 是 说 后 续 数据 帧 中 不 需要 再 用 单独 
的 字段 区 分 每 个 帧 的 大 协议 类 型 了 。 这 是 基于 连接 的 
交换 的 一 个 优势 ， 包 交换 则 需要 在 每 个 数据 包 中 都 给 
出 诸如 TCP 端 口号 这 种 区 分 字段 。Tgt 设 备 不 允许 发 起 
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Byte\Bit 7 6 5 4 3 2 1 | ° Code Description 
0 0000h | Ops 
INITIATOR 
PORT PROTOCOL ADDRESS FRAME TYPE (1h) oi ET 
1 FEATURES CONNECTION RATE = = 
7FFFh | 32,767 hs 
2 (MSB) 
$ INITIATOR CONNECTION TAG 8000h | 0 ms + 32,768 hs 
(58) 8005 | 1 ms + 32,768 hs 
4 oe aea 
f 7 DESTINATION SAS ADDRESS FFFFh | 32,767 ms + 3,768 hs 
12 Protocol 
8 SOURCE ЗАЗ ADDRESS = ilea Description 
20 000b SMP 
COMPATIBLE FEATURES 
21 001b SSP 
PATHWAY BLOCKED COUNT оф STP 
1 
22 (MSB) 
ARBITRATION WAIT TIME All others Reserved 
23 (LSB) 
Connection rate 
24 
Pa. MORE COMPATIBLE FEATURES —— Code Description 
8h 1.5 Gbps 
a (МВ) = gh 3.0 Gbps 
31 (LSB) All others Reserved 


7-166 Open Address Frame 的 结构 
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SMP Open， 但 是 可 以 发 起 SSP/STP Open〈 比 如 ， 要 向 
JInit 端 返回 数据 但 是 之 前 的 连接 已 断 开 时 ) 。 

ADDRESS FRAME TYPE: 前 文中 介绍 过 Identify 
Address Frame， 所 以 Address Frame 共 有 两 种 ， 一 种 是 
Identify， 一 种 是 Open。 该 字段 为 1 则 表示 为 Open， 为 
0 则 为 Identify 。 

FEATURES/COMPATIBLE FEATURES: 此 字段 
保留 将 来 用 。 

CONNECTION RATE: 值得 一 提 的 是 ，Init 端 
可 以 选择 让 PHY 以 比 链 路 运行 速率 低 的 速率 发 送 数 
据 ， 也 就 是 在 Open Address 帧 中 明确 给 出 希望 使 用 的 
收发 速率 。 比 如 ， 一 个 协商 在 3Gbit/s 速 率 的 PHY， 
如 果 Init 端 想 要 以 1.5Gbit/s 速 率 收发 数据 ， 这 是 被 允 
许 的 。 但 是 链 路 物理 层 速率 依然 会 运行 在 3Gbit/s。 
SAS 的 做 法 是 ， 在 每 4 字 节 数据 之 间 插 入 ALIGN 有 
续集 (也 是 4 字 节 ) ， 接 收 方 收 到 信号 之 后 自动 剔除 
ALIGN 序 列 即 可 。 同 理 ， 如 果 想 在 物理 速率 为 6Gbit/s 
的 链 路 上 以 1.5Gbit/s 速 率 传 数 据 ， 那 么 底层 硬件 应 该 
每 隔 3 个 双 字 就 插入 一 个 ALIGN， 如 图 7-167 左 侧 所 
示 。 当 然 ， 这 种 方式 比较 浪费 资源 ， 但 又 是 的 确 有 
可 能 发 生 的 场景 ， 因 为 SAS 支 持 前 向 兼容 ， 所 以 网 络 
上 就 可 能 存在 各 种 速率 的 设备 ， 每 条 链 路 的 速率 可 
能 都 不 同 。 

这 样 做 会 浪费 资源 ， 所 以 SAS 支 持 图 中 右 侧 所 示 
的 连接 方式 ， 如 果 某 个 连接 要 求 的 速率 低 于 PHY 物 理 
层 速率 ， 则 该 PHY 可 以 被 多 个 连接 复 用 ， 表 面 上 相当 
于 一 个 物理 PHY 切 分 成 了 多 个 逻辑 PHY。 但 是 实际 产 
品 是 否 支 持 这 种 方式 就 不 一 定 了 。 

所 以 ， 如 图 7-167 中 的 拓扑 ， 如 果 左 侧 的 Init 端 
以 3Gbit/s 速 率 向 右 侧 的 设备 发 起 Open， 则 左边 的 
SXP 会 返回 一 个 Open Reject (Connection Rate Not 
Supported) 有 续集 / 原 语 ， 因 为 两 个 SXP 之 间 的 链 路 只 
有 1.5Gb/s 的 速率 。 此 时 Init 端 的 PHY 硬 件 电路 应 该 自 
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动 降 低速 率 发 起 连接 。 
Destination/Source SAS Address: 这 个 就 不 用 多 说 
了 ， 建 立 连 接 一 定 需要 给 出 源 和 目标 SAS 地 址 。 因 此 ， 
Open 之 后 ， 后 续 的 数据 帧 中 就 可 以 不 用 携带 目标 和 源 
SAS 地 址 了 ， 因 为 通信 双方 只 有 这 一 条 路 可 走 ， 而 且 
都 知道 双方 各 自 的 SAS 地 址 (Open 时 已 经 给 出 了 )。 
Initiator Connection Tag: 连接 建立 之 后 ， 是 可 以 被 
临时 断 开 的 ， 比 如 双方 可 以 主动 发 起 Close 断 开 ， 或 者 
链 路 空闲 达 到 一 定时 间 超 时 后 断 开 。 而 此 时 Tgt 端 可 能 
正在 执行 Init 端 发 送 的 某 个 命令 ， 所 以 Tgt 端 会 择 时 重新 
发 起 Open 请 求 给 Init 端 。 这 就 意味 着 ， 一 个 Init 端 可 能 
与 多 个 Tgt 端 保持 着 会 话 关系 ， 如 果 Init 端 的 端口 只 有 一 
个 PHY， 那 么 这 多 个 会 话 关系 会 轮流 占用 这 个 PHY， 
如 果 是 宽 端口 ， 则 每 个 会 话 关 系 可 以 独占 一 个 PHY。 
当 某 个 Tgt 与 Init 重 新 Open 时 ，Init 端 依靠 Open 中 的 源 
SAS 地 址 来 判断 是 哪个 Tgt 又 连 上 了 ， 然 后 就 将 内 部 的 
数据 /命令 路 径 切 换 到 针对 该 Tgt 会 话 的 队列 上 ， 向 其 发 
送 或 者 从 其 接收 后 续 的 命令 /数据 。 但 是 由 于 SAS 地 址 
为 64 位 长 ， 需 要 用 64 位 的 比较 器 和 周边 电路 ， 这 会 增 
加 电路 资源 。 所 以 设计 者 附加 了 一 个 Initiator Connection 
Tag 字 段 ， 长 16 位 ， 发 起 连接 的 一 方 初始 时 指定 这 个 
值 用 作 和 某 个 Tgt 的 对 接 暗 号 ， 替 代 SAS 地 址 ， 这 样 可 
以 节省 电路 资源 。 接 受 Open 的 一 方 会 将 这 个 值 记 录 下 
来 ， 后 续 向 本 方 发 起 Open 的 时 候 只 要 也 携带 这 个 值 ， 
本 方 也 只 检测 该 值 而 不 检测 源 SAS 地 址 ， 本 方 已 经 知 
道 该 将 本 连接 映射 到 内 部 的 哪个 会 话 队 列 了 。 
Pathway Blocked Count: 由 于 SAS 网 络 基于 连接 
的 设计 ，SXP 之 间 的 主干 道上 的 端口 宽度 决定 了 可 同 
时 容纳 的 连接 数量 (一 般 为 每 个 PHY 同 一 时 刻 承载 一 
个 连接 ， 如 果 支 持 逻 辑 PHY 则 单个 物理 PHY 可 支持 
多 个 连接 ) 。 如 果 该 干道 上 所 有 PHY 都 已 经 各 自 承载 


了 某 个 连接 ， 那 么 如 果 有 新 的 连接 也 需要 经 过 这 个 干 
道 ，SXP 会 返回 Open Reject (Pathway Blocked) 有 续 


图 7-167 速率 匹配 方式 以 及 物理 PHY 可 以 拆 成 逻辑 PHY 


集 / 原 语 。 新 连接 发 起 后 ，Init 端 每 次 收 到 这 个 回应 便 
记录 到 计数 器 中 ， 下 次 重 试 Open 时 便携 带 这 个 数值 。 
SXP 可 能 会 从 多 个 Init/Tgt 端 收 到 多 个 Open 请 求 ，SXP 
会 根据 这 个 值 将 那些 等 待 了 太 长 时 间 的 Open 请 求 优先 
予以 通过 。 

Arbitration Wait Time (AWT) : 该 字段 给 出 的 是 
发 送 Open 的 一 方 当前 已 经 等 待 了 多 长 时 间 而 没有 接收 
到 Open Accept 或 者 Reject 原 语 了 。 由 于 同一 个 时 刻 可 
能 会 有 多 个 Open 请 求 争 抢 同一 个 SAS 端 口 〈 比 如 两 个 
SXP 之 间 的 干道 端口 ) ， 如 果 端 口 不 够 宽 ， 那 么 就 必 
然 有 请 求 被 阻塞 等 待 。 这 个 值 ， 用 来 给 SXP 判 断 是 不 
是 该 给 某 个 请 求 开 个 绿灯 了 。 

如 果 Init 端 与 Tgt 端 或 者 SXP 端 是 直 连 的 ， 则 Open 发 
出 之 后 不 需要 经 过 转发 交换 即 可 到 达 Tgt 端 ， 也 不 需要 
和 其 他 人 争 抢 。 但 是 如 果 Open 的 目标 端 位 于 多 级 SXP 
之 后 ， 那 么 就 存在 争 抢 的 问题 ， 有 和 争 抢 就 有 仲裁 ， 谁 
胜出 是 靠 SXP 根 据 各 种 参数 〈 上 文中 也 提 到 过 ) 判决 
的 。 而 且 某 个 Open 请 求 即便 是 赢得 了 本 SXP 的 仲裁 被 
转发 到 了 下 一 级 SXP， 在 那里 依然 会 再 次 仲裁 一 轮 ， 
最 终 获 胜 才能 到 达 目 标 端 ， 得 到 Open Accept 回 应 。 

整个 过 程 如 图 7-168 所 示 。 第 一 级 SXP 忙 于 仲裁 
时 ， 会 向 发 起 端 返回 AIP (Normal) 原 语 ，AIP 表 示 
Arbitration In Progress。 发 起 端 发 出 Open 之 后 期 望 在 
1 ms 之 内 接收 到 有 效 回应 ， 如 果 超 时 没 接收 到 任何 回 
应 ， 则 发 起 端 ( 比 如 SAS HBA 底 层 电 路 状态 机 》 自 动 
发 起 BREAK 原 语 来 取消 本 次 连接 请 求 。 


Initiator 


Target 


Expander Drive 


图 7-168 ”Open 的 处 理 步骤 


SXP 收 到 Open 请 求 之 后 ， 会 以 AIP (Normal) 原 语 
响应 ， 如 果 没 有 仲裁 获胜 而 不 得 不 等 其 他 连接 断 开 后 
再 仲裁 ， 则 SXP 要 不 停 回 复 AIP (Normal) ， 每 128 个 
双 字 (4 字 节 ) 就 得 回复 一 个 以 防止 请 求 端 等 待 超时 。 
如 果 本 次 请 求 仲裁 失败 ， 被 其 他 人 抢 了 ， 那 么 就 继续 
等 待 ， 一 直到 仲裁 成 功 为 止 。 成 功 后 ，SXP 将 本 Open 
帧 按照 路 由 表 转 发 到 目标 端口 给 下 一 级 SXP， 然 后 向 
请 求 端 回复 AIP (Waiting on Device) 原 语 。 下 一 级 SXP 
做 相同 动作 ， 第 一 级 SXP 则 转发 第 二 级 SXP 的 回应 原 语 
给 请 求 端 。 该 请 求 最 终 被 转发 给 目标 终端 设备 ， 目 标 
终端 设备 如 果 接受 请 求 ， 就 返回 Open Accept 原 语 ， 该 
原 语 最 终 会 被 转发 给 请 求 端 ， 连 接 成 功 建立 。 
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当然 ，Open 过 程 可 能 并 不 是 一 帆 风 顺 的 ， 会 遇 到 各 
种 情况 ， 请 求 端 可 能 收 到 各 种 异常 回应 。 如 图 7-169 所 
示 ， 左 侧 为 SXP 可 能 的 回应 ， 右 侧 则 为 目标 设备 可 能 的 
回应 。 图 中 所 示 的 各 种 可 能 的 回应 就 不 多 介绍 了 。 


Response Description 
AIP (NORMAL) Expander has accepted the connection request (the 
request is making progress). 

AIP (Reserved 0) | Reserved, but processed the same as AIP (Normal). 

AIP (Reserved 1) — | Reserved, but processed the same as AIP (Normal). 

AIP (Reserved 2) | Reserved, but processed the same as AIP (Normal). 
AIP (WAITING ON | Expander has determined the routing, but either the 

CONNECTION) | destination phys are all in use, or there are insufficient 


resources to complete the request. 


Expander has determined the routing and forwarded 
the request to the output phy. This is only sent once. 


ler has determined the routing, but the destina- 
tion phys are all busy with other partial pathways 
(connection requests that have not yet reached the des- 
tination phy). This may indicate a deadlock condition; 
see the Link Layer chapter on Arbitration for more 
information about resolving potential deadlock condi- 


AIP (WAITING ON 
DEVICE) 


AIP (WAITING ON 
PARTIAL) 


tions. 
AIP (Reserved WAIT- | Reserved, but processed the same as AIP (Waiting оп 
INGON PARTIAL) | Partial). 
М ВЕЛ If the request would have to be routed back to the 
(BAD DESTINATION) | same expander port on which it arrived, and the 


expander has not chosen to return OPEN_REJECT (No 
Destination), then this would be the response. This is 
the only OPEN_REJECT by an expander that conveys 
the meaning that this request should be abandoned 
rather than retried. 


Either: 

a) No such destination Phy exists, or 

b) The request would have to be routed back to the 
same expander port on which it arrived, and the 
expander has not chosen to return OPEN_REJECT 
(Bad Destination), or 

©) An STP device is targeted, but it's initial Register - 
Device to Host FIS has not yet been received. 


(NO DESTINATION) 


т 1f none of the destination phys support the rate 
(CONNECTION RATE | requested, an expander reports it with this response. 


NOT SUPPORTED) 


OPEN_REJECT The expander reports that the pathway was blocked by 
(PATHWAY BLOCKED) | higher-priority requests. 


OPEN_REJECT 


Indicates the expander is waiting to receive a BREAK 


(WAITING FOR from the requesting Phy and will not accept a 
BREAK) new request until then. 
OPEN_ACCEPT Phy supports and accepts the requested connection. 
OPEN_REJECT Phy doesn't support the requested rate. 
(CONNECTION 
RATENOT 
SUPPORTED) 
OPEN_REJECT Phy doesn’t support the requested initiator/ target role, 
(PROTOCOL protocol, initiator connection tag, or features specified 
NOT in the request. 
SUPPORTED) 
OPEN_REJECT The destination address in the OPEN address frame 
(WRONG doesn't match the SAS address of the port that received 
DESTINATION) the request. 
OPEN_REJECT This STP target port has an affiliation with another ini- 
(STP tiator, or all the task file registers have been allocated 
RESOURCES to other STP initiator ports. If this request was routed 
BUSY) to an STP device by mistake, this response will be 
understood by the requester as OPEN_REJECT (Wrong 
Destination). 
OPEN_REJECT Either: 
(RETRY) a) The Phy is unable to accept connections, or 


b) The Phy is currently waiting on a response to a 
BREAK. 


Note that this is the only reject from a destination Phy 
that can be retried. All of the other rejections mean the 


request is to be abandoned. 


图 7-169 SXP 和 目标 设备 针对 Open 帧 可 能 返回 的 各 种 回 
应 一 览 
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提示 > 


SAS 协 议 有 个 比较 奇 苑 的 地 方 是 ， 帧 和 原 语 对 
于 初次 了 解 这 个 协议 的 人 来 讲 有 点 难以 分 辨 。 有些 
原 语 看 着 像 帧 。 比 如 Open Address 是 个 帧 ， 但 是 它 
的 回应 却 都 是 原 语 。 而 与 Open 同 属 一 类 帧 的 Identify 
Address 也 是 个 帧 ， 但 是 它 的 回应 也 是 帧 ， 而 不 是 原 
语 。SAS 的 原 语 相 比 PCIE 的 Order Set/PLLP 而 言 具 


有 更 多 的 上 层 业 务 意义 ,更 像 是 帧 。 


SXP 收 到 Open 请 求 之 后 ， 先 查 路 由 表 看 一 下 其 需 
要 从 哪个 端口 被 转发 出 去 ， 然 后 再 判断 当前 出 方向 端 
口 是 否 有 空闲 的 PHY， 如 果 没 有 ， 等 待 。 同 时 判断 是 
否 存在 其 他 Open 请 求 也 要 从 该 端口 走 ， 如 果 是 ， 在 
等 待 的 同时 执行 仲裁 过 程 ， 根 据 各 种 参数 选 出 一 个 获 
胜 的 Open 请 求 。 当 有 PHY 空 闲 之 后 〈 其 他 连接 被 关 
BJ) ，SXP 控 制 其 内 部 的 MUX/DEMUX 通 路 打通 从 源 
端口 PHY 到 出 方向 PHY 的 通路 ， 连 接 在 该 SXP 内 部 建 
立 了 起 来 。 就 这 样 ， 一 直 在 通 往 目标 设备 的 路 径 上 的 
所 有 SXP 上 都 建立 起 连接 ， 路 径 最 终 被 打通 。 如 果 第 
一 级 SXP 建 立 了 连接 ， 但 是 如 果 后 级 SXP 发 送 了 Open 
Reject (Pathway Blocked) 等 异常 回应 的 话 ， 则 上 一 
级 SXP 收 到 该 回应 后 向 请 求 端 转发 的 同时 ， 断 开 之 前 
建立 好 的 连接 ， 这 相当 于 工作 白费 了 。 所 以 ， 对 于 
一 个 SAS 网 络 ， 如 果 连 接 的 设备 太 多 ， 通 信 量 很 大 的 


话 ， 这 种 浪费 会 更 多 ， 从 而 影响 性 能 。 


SAS 与 PCIE 虽 然 都 是 将 多 个 通道 绑 定 成 一 个 端 
口 ， 但 是 PCIE 是 将 每 个 数据 包 都 按 字 节 拆 分 到 多 个 
通道 上 发 送 ， 可 以 说 PCIE 端 口上 同一 个 时 刻 只 有 
一 个 数据 包 在 发 送 ， 相 当 于 单个 数据 包 的 发 送 速度 
增加 了 对 应 的 倍数 。 而 SAS 这 种 方式 ， 同 一 时 刻 在 
多 个 PHY 上 可 以 有 多 个 数据 包 并 行 传送 ， 但 是 每 个 
数据 包 的 传送 速度 并 没有 加 倍 ，SAS 和 PCIE 的 多 通 
道 技术 都 可 以 将 总 体 知 吐 量 加 倍 。 但 是 仔细 思索 一 
下 的 话 ， 这 两 种 方式 在 某 些 场景 下 的 性 能 还 是 会 有 
区 别 。SAS 这 种 多 连接 并 发 模式 可 以 更 加 充分 地 让 
多 个 SAS 设 备 同时 接收 和 执行 命令 。 如 果 是 SAS 机 
械 盘 ， 那 么 这 种 多 并 发 是 非常 理想 的 提升 性 能 的 方 
式 ， 如 果 命 令 排 队 先后 发 送 ， 即 便 每 条 命令 /数据 可 
以 拆 分 到 多 个 通道 并 行 发 送 ， 但 是 这 似乎 对 机 械 盘 
意义 不 大 ， 机 械 盘 执行 的 时 候 会 非常 慢 。 此 时 需要 
的 是 多 个 设备 并 行 执行 ， 而 不 是 单个 指令 /数据 更 快 
被 发 送 ， 硬 盘 如 果 给 不 出 数据 ， 通 道 只 能 闲置 ， 也 
就 谈 不 上 加 速 与 否 。 而 PCIE 属 于 访 存 网 络 ，TLP 下 
发 之 后 目标 设备 会 在 极 短 的 时 间 内 返回 数据 ， 因 为 
访问 的 地 址 要 么 是 寄存 器 ， 要 么 就 是 存储 器 ， 这 些 
介质 的 响应 速度 远 比 机 械 硬 盘 快 得 多 ， 所 以 基本 不 
会 有 链 路 浪费 的 时 候 。 同 时 ， 访 存 请 求 可 能 并 不 会 


积压 太 多 ,很 多 时 候 有 可 能 上 层 队 列 中 只 有 一 条 或 
者 几 条 访 存 请 求 ， 此 时 反而 将 一 个 数据 包 拆 分 到 多 
通道 能 够 更 好 地 利用 链 路 。 而 硬盘 IO 很 多 时 候 会 排 
队 在 上 层 队 列 中 ， 这 样 可 以 保证 有 多 个 IO 同时 并 行 
执行 ， 所 以 SAS 的 多 连接 并 发 方式 就 更 加 合适 。 不 
过 ， 在 固态 硬盘 时 代 ， 这 个 准则 又 会 受到 更 多 因素 
的 影响 ， 变 得 更 加 难以 评判 。 


至 此 ，Bus Driver 起 码 成 功 获取 到 了 与 HBA 连 接 
的 SXP#1 的 基本 信息 ， 其 中 最 重要 的 信息 是 ， 其 上 有 
多 少 个 PHY， 最 大 的 PHY ID 是 几 。 显 然 ，Bus Driver 
如 果 想 探知 到 挂 接 在 SXP#1 的 这 些 PHY 对 端的 设备 是 
什么 的 话 ， 就 只 能 问 SXP#1: “请 告诉 我 ， 你 从 你 的 
PHY#0 上 看 到 了 什么 ? ”这 对 应 了 另 一 条 SMP 命 令 : 
SMP Discovery。 注 意 ， 这 里 并 不 是 去 询问 该 PHY 对 
端的 设备 ， 而 是 询问 SXP#1。SXP#1 怎 么 会 知道 它 连 
接 的 对 端 设 备 的 信息 呢 ? 还 记得 吗 ，SXP#1 之 前 在 链 
路 初始 化 过 程 中 已 经 接收 到 了 其 直 连 的 所 有 设备 的 
Identify 帧 ， 从 中 可 以 获知 对 端的 SAS 地 址 以 及 设备 
类 型 、 所 支持 的 协议 等 。Bus Driver 要 的 就 是 这 些 信 
息 ， 尤 其 是 要 到 对 方 的 SAS 地 址 ， 这 样 Bus 后 续 就 可 
以 与 它们 通信 了 。 

图 7-170 所 示 为 SMP Discovery 命 令 帧 结构 。 其 中 
关键 字段 就 是 PHY Ш. Bus Driver 会 根据 上 一 步 使 用 
SMP Report General 获 得 的 SXP 上 的 最 大 PHY ID 号 码 ， 
从 PHY#0 开 始 ， 依 次 发 起 SMP Discovery 命 令 给 SXP。 
SXP 针 对 该 命令 的 返回 结果 如 图 7-171 所 示 。 


Discover Request 
Byte Field(s) 
0 SMP Frame Type (40h) 
1 Function (10h) 
2to8 Reserved 
9 Phy Identifier 
10to11 Reserved 


图 7-170 SMP Discovery 命 令 帧 结构 


图 7-171 中 左 侧 的 大 部 分 字段 我 想 大 家 都 知道 其 
AXN. Attached Device Type 字段 有 三 种 值 : 最 终 设 
备 、SXP 或 者 无 设备 连接 。 

Attached Initiator/Target Port Bits 字 段 的 内 容 其 实 
就 是 照搬 图 7-161 中 的 从 Identify 帧 中 获取 的 那 6 位 ， 用 
于 表示 对 端 设 备 支持 哪 类 业务 的 控制 位 。SAS Address 
字段 表示 发 送 该 回应 帧 设备 〈 本 例 中 为 SXP#1) 自身 
的 SAS 地 址 。 

Attached SAS Address 和 Attached Phy Identifier 字 
段 给 出 的 是 该 SXP 上 的 PHY 对 端 设备 PHY 的 SAS 地 
址 ， 以 及 对 端 PHY 在 它 那 边 的 PHY ID， 这 些 也 都 是 
SXP#I 当 初 从 Identify 帧 中 获取 到 的 ， 不 足 为 奇 。 

Hardware Min/Max Rate 给 出 的 是 该 SXP 上 的 PHY 
的 硬件 能 够 支持 的 最 大 和 最 低速 率 。 
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Discover Response 
Byte Field(s) | Буе Field(s) 
0 SMP Frame Type (41h) 16 t023 SAS Address 
7 Function (105) 241031 Attached SAS Address 
32 Attached Phy Identifier 
2 Function Result 
33 t039 Reserved 
3to8 Reserved 40 Programmed Min Rate Hardware Min Rate 
9 Phy Identifier 41 Programmed Мах Rate Hardware Max Rate 
10ю И Reserved 42 Phy Change Count 
43 Virtual Ph Reserved | Partial Pathway Ti 
Е азана рейсе Туре НЕЕ: лима! Phy rvi Partial Pathway Timeout 
13 Reserved Negotiated Physical Link а Reserved Routing Attribute 
Rate 45 Reserved Connector Type 
14 Reserved Attached Initiator Port bits 46 Connector Element Index 
15 Attached Reserved Attached Target Port bits ый АЕ вера 
БАТА Port 48 1049 Reserved 
Selector 50 10 51 Vendor specific 
16to 55 见 右 侧 52to 55 CRC 


图 7-171 SMP Discovery Response 帧 结构 


Programmed Min/Max Rate 给 出 的 则 是 该 PHY 被 人 
为 设置 运行 的 速率 ， 比 如 某 个 3Gbit/s 的 PHY 被 SXP 固 
件 或 者 其 他 角色 设置 以 1.5Gbit/s 半 速 运 行 。 

Phy Change Count 表 示 该 PHY 发 生 状 态 改变 的 次 
数 ， 与 Report General Response 中 的 Expander Change 
Count 的 目的 和 作用 相同 ， 只 不 过 这 个 是 针对 单个 
PHY 的 计数 值 。 

Virtual PHY 字 段 为 1 则 表示 该 PHY 是 一 个 由 SXP 
固件 虚拟 出 来 的 虚拟 PHY， 其 对 端 连接 了 一 个 虚拟 
Tgt 设 备 ， 发 送 给 该 虚拟 PHY 的 数据 其 实 是 发 送 给 了 
SXP 内 部 的 嵌入 式 CPU 中 运行 的 程序 (虚拟 Tgt》 。 
这 个 虚拟 Tgt 的 一 个 最 典型 的 用 处 是 可 以 作为 带 内 管 
理 ，Host 端 的 程序 直接 将 数据 发 送 给 这 个 Tgt， 就 可 以 
控制 SXP。SES (SCSI Enclosure Service) 也 需要 用 到 
这 个 虚拟 Tgt 设 备 来 发 送 一 些 控 制 JBOD 硬 盘 箱 的 LED 
闪烁 、 各 种 传感器 数据 采集 、 设 置 等 。 

其 他 字段 就 不 多 介绍 了 ， 大 家 可 以 自行 参阅 SAS 
协议 规范 手册 。 

可 以 看 到 ，Init 端 通过 SXP 获 取 到 了 SXP 的 下 游 
所 连接 设备 的 信息 ， 这 就 算 枚 举 出 了 设备 。 我 们 来 看 
如 图 7-172 所 示 的 拓扑 。Bus Driver 在 SMP Discovery 
SXP#0 时 ， 会 发 现 其 中 有 三 个 端口 对 端 连接 的 仍然 是 
SXP 设 备 〈 如 果 该 端口 为 宽 端口 ， 那 么 Bus Driver 会 
判断 出 有 多 个 PHY 的 对 端 设备 有 相同 的 SAS 地 址 ， 则 
知道 这 几 个 PHY 组 成 了 宽 端 口 ) ， 并 可 以 获知 这 三 个 
SXP 的 SAS 地 址 。 于 是 ，Bus Driver 继 续 向 这 三 个 端口 
依次 发 送 SMP Report General 分 别 获取 SXP#1/2/3 的 基 
本 信息 当然 ，HBA 底 层 硬 件 会 自动 先 向 目标 SAS 地 
址 进行 Open 操 作 ) ， 然 后 再 用 SMP Discovery 去 扫描 这 三 
个 SXP 上 的 每 个 PHY， 从 而 获知 到 网 络 中 第 二 层 SXP 上 
的 所 有 设备 信息 。 其 中 在 SXP# 的 某 个 PHY 上 又 获知 到 
其 对 端 又 接 了 一 个 SXP， 那 么 就 继续 枚 举 这 个 SXP， 一 
直到 没有 发 现 更 多 的 SXP 为 止 。 整 个 过 程 采用 广度 优 


先 方式 进行 ， 这 与 PCIE 的 枚 举 方式 完全 相反 。 


一 


SXP#2 


SXP#0 | 


图 7-172 广度 优先 的 扫描 模式 


思考 一 下 ， 当 Bus Driver 枚 举 SXP#4 的 时 候 ， 
HBA 底 层 会 发 送 Open Address 帧 与 SXP#4 建 立 连接 ， 
那么 ，SXP#0 是 如 何 知道 SXP#4 的 这 个 SAS 地 址 位 
于 哪个 端口 后 面 的 ?也 就 是 说 ，SXP#0 上 并 不 存在 
SXP#4 地 址 的 路 由 信息 ， 那 它 针对 这 个 Open 请 求 会 返 
回 Open Reject (No Destination) 原 语 拒绝 连接 。SXP 
之 间 并 不 存在 相互 推送 学 习 路 由 的 机 制 〈 不 过 IP 网 络 
中 的 路 由 器 就 具有 这 种 动态 路 由 学 习 功 能 ， 而 且 还 有 
多 种 不 同 的 动态 路 由 协议 ) 。 显 然 ， 至 此 ， 网 络 中 只 
有 一 个 角色 知晓 全 局 的 网 络 拓扑 、 设 备 和 SAS 地 址 ， 
这 个 角色 就 是 Bus Driver， 看 来 具有 靠 它 把 路 由 信息 
写 入 到 每 个 SXP 里 了 。 这 个 过 程 对 应 了 一 个 SMP 命 
令 : SMP Configure Route Information， 发 现 一 层 SXP 
就 写 好 一 层 的 路 由 表 ， 逐 层 推进 ， 最 终 枚 举 完 整个 
SAS 网 络 。 我 们 先 来 看 看 SXP 路 由 表 的 样子 。 

如 图 7-173 所 示 ，SAS 定 义 了 两 种 路 由 表 结 构 ， 
SXP 可 以 选择 支持 任意 一 种 。 第 一 种 〈 左 侧 ) 称 为 
PHY Based Route Table， 其 基本 组 织 形式 是 一 个 表 
格 ， 第 一 列 为 路 由 条 目 序 号 列 ， 后 面 几 列 为 PHY ID 
列 ， 最 大 支持 多 少 个 PHY 就 设置 几 列 。 假 设 该 SXP 的 
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图 7-173 ”Expander 内 两 种 可 选 路 由 表 结构 


PHY#2 下 游 连 接着 SAS 地 址 分 别 为 A/B/C 的 三 个 SAS 
设备 ， 则 在 这 个 表 中 需要 占用 三 个 条 目 ， 比 如 Index 
0/1/2 这 三 行 ， 然 后 在 PHY#2 对 应 的 那 一 列 的 第 一 行 写 
入 SAS 地 址 A， 第 二 行 写 入 SAS 地 址 B， 第 三 行 写 入 
SAS 地 址 C。 假 设 PHY#4 后 面 还 有 SAS 地 址 X 和 Y， 那 
么 就 要 再 开辟 两 行 新 的 ， 然 后 在 PHY#4 列 的 这 两 行 的 
交叉 点 分 别 写 入 SAS 地 址 X 和 Y。 另 外 ， 每 个 交叉 点 上 
增设 1 位 用 来 表示 该 条 目 是 否 被 禁用 。 

另 一 种 实现 方式 〈 右 侧 ) 称 为 Expander Based 
Route Table， 其 设计 更 易 理解 、 易 查找 。 该 表 的 第 一 
列 放置 目标 SAS 地 址 ， 后 面 几 列 则 每 个 PHY ID 一 列 ， 
该 SAS 地 址 对 应 的 设备 位 于 哪个 PHY 的 下 游 〔 从 哪个 
PHY 下 面 认 到 的 ) ， 就 在 该 PHY、 该 行 的 交叉 点 上 
写 入 1， 不 是 1 的 地 方 都 写 入 0。 收 到 Open 请 求 时 ， 电 
路 将 请 求 中 的 目标 SAS 地 址 与 路 由 表 中 的 地 址 进行 匹 
配 ， 找 到 对 应 的 行 ， 然 后 再 查找 该 行 里 PHY ID 阵列 
位 图 中 哪 一 位 是 1， 便 可 以 确定 本 次 转发 的 出 方向 端 
口 了 。 

可 以 看 到 ， 后 一 种 实现 方式 耗费 更 少 的 电路 资 
源 ， 更 规整 、 更 简易 。 实 际 中 ， 存 放 SAS 地 址 的 这 一 
列 存储 器 可 以 采用 CAM ( 见 本 书 第 3 章 ) 来 提高 查找 
速度 。 不 过 ， 由 于 SAS 仅 在 Open 的 时 候 查 找 路 由 表 ， 
并 不 是 每 个 数据 帧 都 要 查 表 转发 ， 所 以 也 不 见得 必须 
用 CAM， 毕 况 CAM 成 本 和 功 耗 还 是 很 高 的 。 

在 Report General Response 中 ， 如 果 Expander 
Route Indexes 字 段 为 全 0， 表 示 该 SXP 支 持 的 是 
Expander Based Route Table， 如 果 不 为 0， 则 表示 其 支 
持 的 是 PHY Based Route Table。 

有 些 SXP 产 品 可 以 进行 所 谓 SelfConfiguration， 
其 内 置 了 一 个 Virtual Initiator С F Virtual PHY 之 后 
的 虚拟 设备 ) ， 固 件 中 运行 一 个 小 型 Bus Driver, 可 
以 自行 枚 举 SAS 网 络 〈 枚 举 其 所 有 下 游 端 口 之 后 所 有 
层级 的 所 有 设备 ) ， 并 获知 路 由 信息 ， 更 新 自己 的 路 
由 表 。 对 于 这 种 设备 ，Host 端 的 Bus Driver 在 Report 
General 的 时 候 会 根据 Response 中 的 Configurable 字 段 
的 值 来 判断 该 SXP 是 不 是 Self-Configurable 的 。Self- 


Configurable 的 SXP 一 般 都 采用 Expander Based Route 
Table。 而 External Configuration Expander 多 采用 PHY 
Based Route Table， 需 要 Host 端 的 Bus Driver 发 起 SMP 
Configure Route Information 请 求 配置 其 路 由 表 。 对 于 
Self-Configuration Expander 自 行 发 现 的 路 由 表 ，Host 
端 可 以 采用 SMP Report Expander Table List 命 令 来 
获取 。 

图 7-174 所 示 为 SMP Configure Route Information 
帧 的 结构 。 其 中 的 字段 含义 很 明显 ， 就 不 再 介绍 
了 。Host 端 每 次 发 送 该 请 求 ，SXP 就 写 入 一 条 路 由 表 
项 ， 如 果 有 多 个 表 项 需要 配置 就 必须 先后 发 送 多 条 该 


Configure Route Information Request 


Byte Field(s) 
0 SMP Frame Type (40h) 
$ Function (90h) 
2to5 Reserved 
6to7 Expander Route Index 
8 Reserved 
9 Phy Identifier 
10ю 11 Reserved 
Disable 
12 Expander Reserved 
Route 
Entry 
13to15 Reserved 
16to23 Routed SAS Address 
24 to 39 Reserved 


图 7-174 SMP Configure Route Information 帧 


至 此 ，SAS 网 络 的 初始 化 过 程 就 结束 了 。 但 是 这 
并 不 意味 着 SAS 网 络 从 此 就 平静 了 。SAS 是 支持 热 插 
拔 的 ， 设 备 可 以 动态 插入 和 拔 出 。SXP 会 向 那些 没有 
设备 连接 的 PHY 持 续 发 出 用 于 设备 探查 的 COMINIT 
OOB 脉 冲 信号 。 如 果 有 新 设备 响应 ，SXP 向 设备 发 送 


Identify Address 的 同时 ， 还 会 发 出 BC 原 语 广播 。Init 
端的 Bus Driver 收 到 该 广播 之 后 ， 需 要 重新 对 网 络 中 
所 有 的 SXP 上 的 PHY 进 行 重新 SMP Discovery 获 取 其 信 
息 ， 然 后 与 自己 之 前 保存 的 信息 进行 比 对 ， 发 现 到底 
是 哪个 PHY/ 端 口 发 生 了 状态 变化 。 然 后 再 专门 针对 这 
个 PHY 做 增 量 的 后 续 处 理 ， 比 如 写 入 对 应 SXP 的 路 由 
表 、 向 系统 中 注册 新 发 现 的 设备 、 加 载 驱动 等 动作 ， 
这 些 增 量 的 动作 对 已 有 设备 的 LO 是 没有 影响 的 ， 但 
是 会 导致 网 络 流量 瞬间 增 从 而 短暂 影响 性 能 。Host 端 
后 续 发 生 的 事情 我 们 下 文 再 介绍 。 

可 以 看 到 ， 只 要 网 络 有 风吹草动 ，Init 端 就 要 重 
新 枚 举 一 遍 网 络 ， 这 太 不 划算 。 由 于 BC 只 是 4 字 节 的 
原 语 ， 其 并 不 能 让 Init 知 道 是 哪个 SXP 的 哪个 PHY 的 状 
态 发 生 了 变化 ， 虽 然 理 论 上 可 以 将 这 个 信息 放 在 可 承 
载 更 加 丰富 信息 的 帧 中 广播 出 去 ， 但 是 这 样 会 耗费 大 
量 网 络 资源 ， 广 播 是 很 浪费 网 络 性 能 的 。 所 以 最 终 设 
计 为 只 发 送 BC 原 语 广 播 ， 节 省 网 络 资源 ， 然 后 依靠 
Init 端 向 每 个 SXP 发 送 Discovery 自 己 去 比 对 从 而 发 现 
新 设备 。 

终端 设备 一 般 不 支持 SMP Tgt 模 式 ， 但 是 理论 上 
可 以 支持 (在 Identify Address 帧 中 给 出 对 应 位 置 位 
即 可 ) ， 这 样 Bus Driver 就 会 继续 对 该 设备 发 送 SMP 
Discovery。 目 前 商用 的 SAS 最 终 设备 比如 SAS 硬 盘 ， 
都 不 支持 SMP Tgt， 它 们 的 各 种 参数 、 配 置 ， 是 采用 
其 他 方式 被 读 出 和 配置 的 ， 我 们 下 文中 再 介绍 。 

至 此 ，SAS 设 备 就 可 以 接收 MO 请 求 了 ， 但 是 在 接 
收 真 正 的 上 层 应 用 层 下 发 的 请 求 之 前 ， 还 有 很 多 事情 
要 做 。 图 7-175、 图 7-176、 图 7-177 所 示 为 SAS 网 络 中 
所 有 原 语 的 含义 一 览 ， 放 在 这 里 备查 。 


7.4.3.5 SAS 和 SCSI 的 Host 端 协议 栈 


现在 ，Host 端 的 Bus Driver 已 经 可 以 识别 到 SAS 
网 络 上 的 所 有 SAS 设 备 ， 并 知道 了 它们 的 SAS 地 址 、 
可 承载 的 业务 类 型 (SSP/SMP/STP) ， 但 是 却 并 不 知 
道 这 些 SAS 设 备 各 是 哪 种 类 别 的 设备 〈 是 硬盘 类 ， 还 
是 磁带 机 类 ) ， 更 不 知道 这 些 设备 的 厂商 ID 等 信息 。 
SAS 设 备 并 不 将 自己 的 Vendor ID、 设 备 类 别 〈 比 如 硬 
盘 、 磁 带 机 等 ) 通告 在 SAS 相 关 的 帧 中 〈 比 如 Identify 
帧 )， 这 一 点 与 USB 和 PCIE 有 很 大 区 别 。 还 记得 吗 ， 
PCIE 设 备 直接 在 其 配置 空间 中 给 出 所 有 信息 ，USB 设 
备 则 在 其 Device Descriptor 中 给 出 这 些 信息 。 不 知道 
这 些 具体 信息 ， 就 无 法 在 Host 端 为 该 SAS 设 备 加 载 对 
应 的 驱动 程序 。 嗯 ? 难道 知道 一 个 SAS 设 备 支持 SSP 
Target 模 式 ， 可 以 接收 并 执行 SCSI 指 令 ， 还 不 够 吗 ? 
既然 SCSI 指 令 都 是 标准 指令 ， 那 么 ， 只 要 能 够 将 上 层 
下 发 的 SCSI 指 令 收 到 并 通过 SAS HBA 发 送 给 该 设备 ， 
这 个 程序 不 就 是 驱动 程序 了 么 ?问题 是 ，SCSI 指 令 
是 分 多 种 的 ， 返 回 图 7-144 最 上 方 就 可 以 看 到 ， 虽 然 
SCSI 设 备 都 支持 SSP Target， 但 是 不 同类 别 设备 所 能 
执行 的 SCSI 命 令 种 类 不 同 。 另 外 ， 仅 靠 SAS 无 法 获取 
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到 更 深层 次 的 设备 信息 。 

这 完全 归根 于 历史 原因 。SCSI 规 范 是 采用 SCSI 
指令 来 获取 这 些 信 息 的 〈 注 意 ， 是 SCSI 而 不 是 SAS 命 
令 ) ， 对 应 的 指令 为 SCSI Inquiry Command， 设 备 接收 
到 该 指令 便 返 回 对 应 的 信息 。 由 于 篇 幅 所 限 ， 这 里 就 不 
介绍 SCSI 指 令 和 回应 的 具体 细节 了 ， 如 图 7-178 所 示 。 

原来 ，SAS 一 直 生 活 在 SCSI 的 阴影 之 下 ，SAS 不 
过 是 SCSI 的 马 前 卒 和 车 夫 ，SAS 的 作用 是 将 SCSI 指 令 
传递 到 目标 ， 而 不 是 去 取代 SCSI 指 令 以 及 SCSI 交 互 方 
式 本 身 。SCSI 并 没有 把 读 取 设 备 深层 次 具体 配置 的 工 
作 移 交 给 SAS。 可 以 发 现 SAS 通 过 Identify 帧 获取 的 只 
是 设备 的 SAS 方 面 的 配置 ， 比 如 SAS 地 址 等 ， 与 SCSI 
几乎 不 直接 相关 。 也 就 是 说 ， 如 果 SAS 承 载 的 不 是 
SCSI 指 令 而 是 其 他 某 种 指令 ， 比 如 A 协议 /命令 ， 也 一 
样 没 问题 。 

SAS 负 责 用 Open 帧 打通 与 对 方 SSP Tgt 处 理 模块 的 
连接 ， 好 让 SCSI 命 令 能 够 溜 过 去 ， 剩 下 的 就 是 SCSI 协 
议 范畴 内 的 事情 了 。 那 么 ， 上 述 SCSI Inquiry 指 令 又 是 
由 谁 发 出 的 呢 ? 我 们 不 得 不 先 全 局 了 解 一 下 Host 端 都 
有 哪些 程序 组 件 。 

如 图 7-179 所 示 ， 我 们 先 看 一 下 浅 灰色 部 分 ， 其 
为 SCSI 体 系 最 原始 的 脉络 。 从 现在 开始 ， 请 你 忘掉 一 
切 关 于 SAS 的 介绍 ， 纯 正 的 SCSI 时 代 还 没有 诞生 SAS 
协议 。 我 们 需要 先 回归 到 史前 来 看 一 看 历史 ， 然 后 再 
一 路 走 到 SAS。 

位 于 中 间 的 是 SCSI 协 议 栈 的 核心 部 分 ， 其 接收 上 
层 下 发 的 IO 请 求 并 转换 为 标准 SCSI 命 令 ， 并 将 命令 
下 发 到 SCSI 主 控制 器 然后 传递 给 后 端 SCSI 设 备 。 该 层 
又 可 以 被 称 为 SCSI Middle Layer， 或 者 SCSI Core, 
为 SCSI 的 核心 逻辑 就 在 这 里 。 

位 于 最 底层 的 则 是 SCSI 主 控制 器 (Host 
Controller) 的 驱动 程序 。 由 于 SCSI 主 控制 器 / 卡 
有 不 同 的 厂商 产品 ， 它 们 对 SCSI 指 令 的 打包 СО 
Descriptor) 和 运输 (从 Host RAM 传 到 主 控 内 部 的 过 
程 ) 方式 虽然 类 似 但 是 细节 又 各 不 相同 ， 所 以 它们 的 
驱动 程序 也 是 不 同 的 ， 各 家 有 各 自 的 驱动 。 比 如 ， 它 
们 接收 上 层 发 来 的 SCSI 命 令 的 方式 不 同 ， 这 样 上 层 就 
得 为 每 一 种 SCSI HBA 控 制 器 各 自 开 发 一 套 接口 ， 并 
通过 判断 当前 是 在 和 谁 通信 而 动态 调用 不 同 的 函数 去 
下 发 SCSI 命 令 。 还 有 很 多 其 他 接口 也 都 要 实现 多 套 ， 
比如 获取 设备 信息 、 获 取 后 端 SCSI 总 线 上 的 信息 、 
Reset 主 控 、Reset 后 端 SCSI 总 线 等 ， 这 些 控制 接口 ， 
每 家 产品 的 操作 码 和 接口 也 可 能 都 不 一 样 。 

于 是 ，SCSI 核 心 层 便 这 样 处 理 : 规定 一 些 要 处 
理 的 事件 ， 比 如 “下 发 SCSI 命 令 ”“Reset 主 控制 
器 ” “扫描 SCSI 总 线 上 所 有 设备 ”等 ， 而 这 些 事件 
的 具体 执行 函数 ， 由 HBA 驱 动 开 发 者 来 开发 ， 然 后 由 
HBA 驱 动 程序 将 对 应 函数 的 指针 写 入 到 一 张 叫 作 scsi_ 
host_template 的 表 里 《〈 实 际 上 是 一 个 结构 体 ) ， 这 
样 ，SCSI 核 心 层 想 要 干什么 事 ， 就 来 这 个 表 里 找 到 对 
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图 7-178 SCSI Inquiry 命 令 及 其 响应 
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图 7-179 SCSI 体 系 Host 端 程序 组 件 示意 图 


应 的 干事 的 函数 ， 调 用 它 就 可 以 了 。 通 过 这 种 方式 ， 
SCSI 核 心 层 把 具体 的 实现 细节 甩 给 了 HBA 厂 商 来 开 
发 ， 而 不 是 自己 来 开发 。SCSI HBA 的 驱动 程序 加 载 
运行 时 会 调用 SCSI 核 心 层 提供 的 scsi_host_alloc0 函 数 
生成 一 个 scsi_host 表 ， 并 对 该 表 里 的 各 种 参数 进行 初 
始 化 赋值 ， 其 中 就 包括 对 scsi_host_template 中 的 对 应 
项 目 赋值 (将 驱动 实现 好 的 相关 函数 指针 写 入 ) 。 然 
后 再 调用 scsi_host_add() 向 SCSI 核 心 层 注册 这 张 填 好 
的 表 ， 也 就 是 注册 ， 或 者 说 对 接 上 了 该 SCSI HBA。 
如 果 系 统 中 有 多 块 HBA 存 在 ， 那 每 块 HBA 的 驱动 
都 会 做 上 面 的 事情 ， 最 终 向 核心 层 注册 上 多 个 scsi_ 
host 表 。 

准备 工作 做 好 之 后 ，HBA 驱 动 程序 会 发 起 针对 
后 端 网 络 的 设备 扫描 动作 。 这 个 扫描 过 程 被 封装 在 了 
scsi_scan_host(O) 函 数 中 。 该 函数 是 由 SCSI 核 心 层 开发 
者 亲手 炮制 的 ， 但 是 却 并 不 是 由 SCSI 核 心 层 主动 调 
用 从 而 发 起 扫描 的 ， 而 是 由 HBA 驱 动 程序 加 载 之 后 ， 
将 对 应 的 数据 结构 表 初 始 化 好 之 后 调用 的 。 但 是 该 函 
数 却 并 不 能 说 是 HBA 驱 动 的 一 部 分 ， 驱 动 只 是 调用 了 
它 ， 它 属于 SCSI 核 心 层 。 

scsi_scan_host() 函 数 具体 过 程 酷似 前 文 介绍 过 
的 PCI 共 享 总 线 所 采用 的 方式 ， 也 就 是 直接 从 Bus0、 
Device0、Function0 开 始 挨个 ID 发 送 配置 读 请 求 TLP， 
有 响应 则 发 现 设备 ， 没 响应 则 继续 下 一 个 ID 。 同 
理 ，SCSI 总 线 的 扫描 则 是 挨个 向 Channel0〈 相 当 于 
Виз) 、Target0 (相当 于 Device) 、Lun0 (相当 于 
Function) 发 起 SCSI Inquiry 命 令 (发 送 给 HBA 了 驱动 
然后 发 送 给 HBA，HBA 再 按照 SAS 地 址 与 C/T/L ID 的 
映射 关系 将 其 发 送 给 目标 SAS 设 备 ) ， 有 响应 则 发 
现 设备 ， 没 响应 则 向 下 一 个 ID 继续 发 送 ， 只 不 过 PCI 
是 逐个 以 Function ID 为 粒度 向 前 推进 的 。 而 SCSI 体 系 
中 ， 如 果 Lun0 没 有 响应 则 证 明 整 个 Tgt 就 不 存在 ， 如 
果 Lun0 响 应 了 ，Lun1 不 响应 ， 则 表示 该 Tgt 只 有 一 个 
Lun， 而 并 不 像 PCLPCIE 那 样 每 个 Function 独 立 存在 。 
怎么 样 ， 是 不 是 感觉 这 些 计算 机 内 部 I/O 协 议 基 本 思 
想 都 差不多 ? 实际 上 也 是 这 样 ， 这 些 协议 规范 制定 者 
在 制定 协议 时 其 实 都 是 在 相互 参考 的 。 

后 来 人 们 觉得 这 种 扫描 方式 太 笨拙 了 ， 便 历经 数 

完善 修改 ， 提 出 了 多 种 不 同 的 设备 扫描 方式 ， 可 以 

根据 参数 来 选择 使 用 不 同方 式 。 比 如 ，Host 端 首先 给 
Cx/Tx/L0 发 起 SCSI Inquiry 指 令 ， 如 果 有 回应 ， 则 向 
Lun0 直 接 发 起 一 个 SCSI Report Lun 指 令 作 为 回应 ， 设 
备 可 以 直接 告诉 Host 端 自己 到 底 有 多 少 个 Lun， 然 后 
Host 分 别 对 每 个 Lun 进 行 Inquiry 即 可 。 

另外 ， 也 有 一 些 HBA 驱 动 开发 者 开发 了 自己 的 
扫描 函数 ， 不 依赖 SCSI 原 生 提供 的 笨拙 方式 ， 比 如 
melon 5651 scan()。 那 么 ， 驱 动 也 并 不 能 直接 调用 该 
函数 扫描 ， 因 为 扫描 出 来 的 设备 需要 呈献 给 SCSI 核 心 
层 ， 单 独 调用 自行 开发 的 函数 ， 扫 描 出 来 之 后 的 结果 
还 是 无 法 与 核心 层 对 接 上 。 所 以 ，SCSI 核 心 层 在 scsi_ 
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host_template 表 中 定义 了 两 项 : scsi scan start 和 scsi_ 
scan_finished。 了 驱动 程序 如 果 有 自己 的 扫描 函数 ， 需 
要 按照 接口 定义 实现 一 个 扫描 函数 以 及 扫描 结束 的 处 
理 函 数 ， 然 后 需要 将 函数 指针 在 调用 scsi ћозг аПос() 
时 写 入 这 两 个 条 目 中 。SCSI 核 心 层 也 需要 在 scsi_ 
scan_host0 函 数 中 判断 当前 HBA 到 底 是 使 用 原生 扫描 
方式 还 是 它 自行 注册 的 扫描 方式 。 然 后 ，HBA 了 驱动 扫 
描 时 依然 统一 调用 scsi_scan_host0 函 数 ， 这 样 既 可 使 
用 自己 注册 的 扫描 方式 了 。 如 果 不 注册 自 定义 扫描 方 
式 ， 那 么 scsi_scan_host0 会 用 原生 默认 的 方式 扫描 。 

所 以 ， 回 答 前 文中 的 问题 ，SCSI Inquiry 指 令 是 
由 scsi_scan_host() 函 数 为 源头 触发 的 ， 当 然 ， 该 函数 
底层 一 定 会 调用 到 HBA 了 驱动 注册 的 用 于 下 发 SCSI 命 
令 的 函数 ， 比 如 melon_queuecommand()，SCSI 核 心 层 
将 SCSI 命 令 封装 到 SCSI Request Block (SRB) 中 ， 
其 相当 于 一 个 IO Descriptor， 其 中 除了 携带 命令 本 身 
之 外 还 有 返回 的 数据 应 该 放 到 哪里 等 信息 。 然 后 调用 
melon_queuecommand() 从 而 传递 给 它 ， 后 者 则 将 该 请 
求 进一步 处 理 、 转 换 之 后 压 入 驱动 程序 维护 的 Send 
Queue 里 ， 最 后 写 寄 存 器 通知 HBA，HBA 从 主 存 中 将 
命令 取 走 、 执 行 ， 并 返回 数据 。 至 于 SCSI HBA 发 送 
命令 式 需 要 先 获取 仲裁 、 处 理 对 应 的 SCSI 总 线 信号 等 
过 程 ，Host 端 的 程序 就 完全 不 知道 而 且 也 不 关心 了 。 

SCSI 核 心 层 根据 每 个 所 发 现 设备 的 Inquiry 命 令 
的 回应 消息 中 的 Device Type 字段 判断 其 属于 哪 一 类 
设备 以 及 厂商 ID 等 ， 加 载 对 应 的 设备 驱动 程序 。 这 
一 层 驱 动 程序 被 称 为 SCSI Device Driver， 或 者 Upper 
Layer Device Driver (ULDD/ULD) ， 而 SCSI HBA 的 
驱动 程序 则 被 称 为 Low Layer Device Driver (LLDD/ 
LLD) 。 这 个 层次 模型 与 USB 体 系 是 类 似 的 。 那 么 
USB 体 系 中 的 Bus Driver， 在 SCSI 体 系 中 是 否 有 对 应 
角色 ? 在 SCSI 体 系 早期 ，Host 端 的 程序 模块 基本 上 只 
有 ULDD、LLDD 和 SCSI Согех =, Виз Driver 并 
没有 分 化 成 一 个 独立 的 细胞 ， 但 并 不 能 认为 其 就 不 存 
在 ， 只 不 过 是 被 紧 耦 合 在 SCSI Core 这 个 大 细胞 之 内 
了 。 比 如 scsi_scan_ hostO 函 数 本 身 就 起 到 了 Bus Driver 
众多 作用 中 的 一 个 ， 也 就 是 扫描 和 发 现 总 线 设 备 ， 并 
在 内 存 中 维护 所 有 SCSI 设 备 的 各 种 信息 表 。 

一 直到 后 来 ， 多 种 不 同 的 物理 链 路 通道 形式 被 
用 于 承载 SCSI 协 议 ， 比 如 Fibre Channel、SAS、 以 太 
网 、Infiniband 等 ， 这 些 底 层 网 络 协议 各 不 相同 。 而 此 
时 scsi_scan_host0 函 数 中 针对 Channel、Target、Lun 发 
送 的 SCSI Inquiry 命 令 喊 话 方式 ， 是 根本 喊 不 到 这 些 网 
络 上 的 。 比 如 ，SAS HBA 收 到 了 针对 C0、T1、L0 的 
Inquiry 命 令 ， 它 怎么 知道 这 个 设备 到 底 是 SAS 网 络 中 
的 哪个 设备 呢 ? 没 错 ， 与 PCIUPCIE 体 系 的 做 法 相同 ， 
做 个 映射 关系 就 可 以 了 ， 比 如 让 SAS 地 址 为 A 的 设备 
的 SCSIID=C0 T1 LO0， 以 此 类 推 。 

不 过 我 们 也 看 到 ，SAS 网 络 的 设备 发 现 过 程 是 完 
全 自 成 一 派 的 ， 这 与 传统 的 SCSI 截 然 不 同 。 对 于 传 
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统 SCSI 总 线 ， 多 个 SCSI 设 备 挂 接 在 总 线 上 ， 然 后 每 
个 SCSI 设 备 在 其 电路 板 上 采用 跳 线 的 方式 手工 设置 
其 SCSI 地 址 ，SCSI HBA 完 全 不 知道 SCSI 网 络 上 有 没 
有 、 都 有 哪些 设备 ， 完 全 靠 将 scsi_scan hostO 生 成 的 
SCSI Inquiry 命 令 广播 到 SCSI 总 线 上 ， 谁 回应 了 ， 方 
才 知 道 有 这 个 设备 。 而 SAS 网 络 的 机 制 既然 与 SCSI 完 
全 不 同 ，SAS 是 自 成 一 派 的 独立 网 络 ， 其 设备 发 现 方 
式 是 主动 式 的 ， 而 且 采 用 的 是 SMP 而 不 是 SCSI 命 令 ， 
平时 还 需要 对 该 网 络 进行 管理 ， 比 如 某 个 PHY 有 个 
风吹草动 的 ， 处 理 BC、Enable/Disable 某 个 端口 PHY 
等 ， 必 须 有 一 个 角色 来 负责 这 个 过 程 ， 这 也 就 是 前 文 
中 提 到 过 的 SAS Bus Driver， 其 源 代 码 对 应 着 Linux 操 
作 系 统 源码 下 的 /drivers/scsi/libsas/ 这 个 目录 。 同 理 ， 
Fibre Channel 网 络 环 境 下 也 有 FC Bus Driver (/drivers/ 
scsi/libfe 目 录 ) 处理 类 似 过 程 ， 然 而 我 们 就 不 过 多 介 
绍 FC 相 关 的 内 容 了 。SAS 协 议 其 实 是 FC 协议 的 一 个 变 
种 ， 其 在 一 些 帧 格式 、 交 互 方式 上 都 与 FC 类 似 。FC 
协议 中 定义 了 包 交 换 和 基于 连接 的 交换 ， 以 及 带 ACK 
和 不 带 ACK 的 通信 方式 ， 灵 活 可 选 ， 但 是 SAS 为 了 降 
低 成 本 ， 只 保留 了 带 ACK 且 基于 连接 的 交换 方式 ， 并 
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然而 ， 图 7-179 中 所 示 的 各 种 Bus Driver 都 是 可 
选 的 ， 也 就 是 说 ，HBA 开 发 者 可 以 开发 自己 的 Bus 
Driver 实 现 SAS 网 络 扫 描 ， 并 将 得 到 的 设备 拓扑 信息 
保存 在 内 存 中 。 为 了 保持 对 上 层 透明 ， 了 驱动 依然 调用 
scsi_scan_host() 函 数 ， 但 是 之 前 驱动 必须 注册 自己 的 
scan_start 和 scan_finished 函 数 ， 这 样 ， 扫 描 请 求 就 会 
被 引流 到 自己 手 里 。 此 时 驱动 可 以 按照 某 种 映射 关系 
将 某 个 SAS 地 址 映射 到 某 个 C/T/L ID， 然 后 自行 对 该 
SAS 地 址 上 的 设备 发 送 SCSI Inquiry 命 令 获 取 该 设备 的 
具体 设备 类 型 等 信息 ， 然 后 将 该 设备 作为 SCSI 设 备注 
册 到 SCSI Core 层 的 设备 表 中 。 后 者 根据 设备 类 型 和 厂 


商 D 加 载 对 应 的 ULDD 驱 动 。 


具体 产品 采用 什么 样 的 方式 ， 得 看 对 应 开发 者 
的 设计 思路 了 ， 不 一 而 同 。 甚 至 ， 目 前 市 场 上 的 主 
流 SAS HBA 产 品 其 实 是 直接 在 其 控制 器 内 部 固件 中 
实现 一 个 Bus Driver 用 于 设备 发 现 过 程 和 后 端 网 络 管 
理 ， 然 后 将 发 现 整理 好 的 设备 拓扑 信息 表 留 在 控制 器 
内 部 备用 。 这 种 场景 下 ，HBA 了 驱动 不 需要 注册 自己 
的 scan_start 或 者 scan_finished 函 数 ， 而 是 直接 走 史前 
的 scsi_scan_host0 原 生 流程 ， 逐 一 针对 每 个 C/T/L 发 送 
SCSI Inquiry 命 令 。 驱 动 则 负责 将 命令 打包 后 传递 给 
HBA，HBA 接 收 命令 并 解析 ， 然 后 根据 自己 内 部 定义 
好 的 (或 固定 的 或 可 编程 的 ) CTIL 和 SAS 地 址 的 映 
射 关系 ， 将 该 命令 发 送 到 指定 的 SAS 地 址 的 设备 上 执 
行 。 设 备 返 回 Inquiry 的 响应 给 Host 端 驱动 ， 驱 动 再 将 
数据 返回 scsi_scan hostO 下 游 步 又， 也 就 是 根据 回应 
匹配 ULDD， 加 载 ULDD。ULDD 会 将 该 SCSI 设 备 继 
续 向 上 层 的 通用 块 层 注册 成 一 个 块 设备 ， 最 终 在 系统 


中 生成 一 个 盘 符 ， 比 如 /dev/sda。 


所 以 ， 如 果 HBA 使 用 了 非 原生 的 SCSI 通 道 接口 
(SCSI Parallel Interface》 的 话 ，HBA 驱 动 依然 需要 
向 系统 申请 并 填充 好 一 个 scsi_host_template。 此 时 该 
Host 由 于 并 不 是 原生 SCSI 通 道 ， 所 以 称 为 虚拟 SCSI 
Host。SCSI 核 心 层 本 身 并 不 关心 HBA 底 层 到 底 使 用 
了 什么 通道 ，SCSI 核 心 层 看 到 的 永远 是 Channel、 
Target、Lun，HBA 驱 动 或 者 国 件 负责 将 这 些 ID 的 IO 
请 求 根据 映射 关系 发 到 对 应 SAS 地 址 上 的 设备 。 

然而 ， 纸 里 包 不 住 火 ， 底 层 已 经 发 生 了 天 翻 地 覆 
的 变化 。 为 了 对 上 层 透明 ， 这 些 底层 设备 对 上 层 都 呈 
现 为 SCSI 设 备 ， SCSI 核 心 层 也 依然 使 用 原始 的 SCSI 
命令 和 交互 方式 与 这 些 设备 通信 。 在 数据 路 径 上 保持 
透明 ， 这 样 做 的 理由 很 充分 ， 但 是 在 管理 方面 如 果 也 
这 样 做 ， 就 不 合适 了 ， 比 如 ， 显 示 每 个 SCSI 设 备 的 
SAS 地 址 等 。 用 户 既 然 知 道 底层 设备 其 实 是 SAS 接 口 
的 设备 ，SCSI 核 心 层 就 不 能 真 的 把 它们 看 作 是 SCSI 设 
备 ， 否 则 会 引起 混淆 和 管理 不 便 。 

为 此 ，SCSI 核 心 层 分 离 出 一 个 单独 的 层次 ， 叫 
作 SCSI 传 输 层 (Transport Layer) 。 底 层 网 络 是 用 来 
传输 SCSI 命 令 和 数据 的 ， 所 以 称 为 传输 层 。 不 同 的 底 
层 网 络 ， 有 不 同 的 传输 层 。 比 如 Linux 下 的 源码 scsi_ 
transport_sas.c、scsi_transport_fc.c 等 ， 甚 至 原始 的 并 
行 SCSI 通 道 也 有 对 应 的 scsi_transport_spi.c。 传 输 层 
还 负责 向 操作 系统 的 设备 管理 模块 中 注册 底层 网 络 
和 设备 相关 的 信息 到 Linux 操 作 系 统 的 一 些 特定 目录 
下 面 ， 比 如 /proc/sas/expander、/proc/sas/hba 等 ， 用 户 
程序 可 以 通过 cat 等 命令 直接 将 该 路 径 下 的 信息 显示 
出 来 。 

如 图 7-180 所 示 ， 冬 瓜 哥 画 了 图 来 展示 与 SCSI 体 
系 相关 的 一 些 组 件 之 间 的 关系 。 这 三 个 图 分 别 对 应 了 
三 种 不 同 的 HBA 的 实现 方式 :最 左 侧 是 HBA 和 驱动 
都 不 负责 网 络 管理 ， 完 全 交 给 Bus Driver; 中 间 则 是 
通过 HBA 驱 动 自行 实现 网 络 管理 功能 ， 最 右 侧 则 是 在 
HBA 固 件 内 部 实现 网 络 管理 。 

如 果 说 SMP Discovery 只 获取 到 了 SAS 设 备 在 SAS 
网 络 上 相关 的 基本 信息 ， 那 么 SCSI Inquiry 指 令 拿 到 的 
则 是 关于 SAS 设 备 在 SCSI 体 系 中 的 基本 属性 ， 用 这 些 
属性 充其量 够 加 载 对 应 设备 驱动 的 。 难 道 还 有 隐藏 的 
更 深 的 信息 ? 是 的 ， 这 最 后 一 层 信息 ， 就 是 该 设备 的 
更 加 细节 的 参数 ， 比如 : 设备 的 写 缓存 是 否 打开 、 读 
缓存 是 否 开启 等 等 。 这 些 深层 次 信息 ， 会 由 设备 驱动 
加 载 之 后 由 设备 驱动 亲自 发 出 对 应 的 SCSI 命 令 给 设备 
来 获取 到 ， 然 后 把 这 些 信 息 放 置 到 内 存 中 的 另 一 个 专 
门 描述 每 个 SCSI 设 备 的 数据 结构 中 ， 比 如 scsi_disk 结 
构 体 中 。 

SCSI 体 系 在 这 最 后 一 层 参 数 中 定义 了 4 个 大 
类 别 的 参数 ， 分 别 为 Diagnostic Parameters, Log 
Parameter、Mode Parameters 以 及 Vital Product Data 
(VPD) Parameters。 这 4 大 类 参数 分 别 使 用 下 面 的 
SCSI 命 令 来 获取 或 者 配置 SCSI Send Diagnostic/ 


Application 

VFS / FS / Block Layer 
SCSI Device Driver 
SCSI Core 

SCSI Transport 

Bus Driver 


HBA Host Driver 
HBA 


SAS Device 
FC Switch 
IB Switch 
Eth Switch 


景点 
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图 7-180 SCSI 体 系 Host 端 程序 组 件 示 意图 


SCSI Receive Diagnostic Results、SCSILog Sense/SCSI 
Log Select, SCSI Mode Sense/SCSI Mode Select、SCSI 
Inquiry (With ЕУР” bit set to 1). 

如 图 7-181 所 示 ，4 大 类 参数 每 一 类 中 的 每 一 项 都 
具有 一 个 Page 号 ， 在 诸如 SCSI Mode Sense 指 令 中 给 出 
要 读 出 的 Page 号 ， 设 备 端 即 可 将 该 Page 号 对 应 的 参数 
回复 回来 。 

图 7-182 所 示 为 Mode 和 Log 参 数 的 Page 号 和 对 应 含 
义 一 览 ， 可 以 看 到 一 个 Page 内 部 还 可 能 有 多 个 子 Page 
号 ， 相 当 于 一 级 参数 下 面 的 二 级 子 参数 。 

图 7-183 所 示 为 Diagnostic 和 VPD 参 数 的 Page 号 和 
对 应 含义 一 览 。 

图 7-184 所 示 为 10 字 节 的 SCSI Mode Sense 命 令 
及 其 响应 ， 以 及 SCSI Mode Select 命 令 。 本 例 中 假设 
Mode Sense 给 出 的 Page 号 为 08h， 也 就 是 试图 读 出 与 设 
备 缓存 相关 的 配置 参数 。 右 侧 所 示 为 返回 的 参数 ， 其 
中 可 以 看 到 WCE (Write Cache Enabled) 位 ， 其 为 1 表 
示 该 设备 当前 是 启用 了 写 缓存 的 ， 可 以 用 Mode Select 
命令 将 其 设置 为 0%， 也 就 关闭 了 设备 的 写 缓存 。 由 于 
SCSI 体 系 定义 了 太 多 参数 ， 篇 幅 所 限 ， 在 这 里 就 不 逐 
个 列举 了 ， 请 大 家 自行 参阅 。 

另外 还 有 个 比较 重要 的 SCSI 指 令 ， 那 就 是 SCSI 
Read Capacity， 如 图 7-185 所 示 。 设 备 驱动 程序 就 是 


Mode parameters 
Background Control mode page (101) 
Caching Parameters page (08h) 


Diagnostic parameters 
Supported diagnostic pages (00h) 
Transate Address page (40h) 
SCSI Endosure Services pages (01h - 2Fh) 


Disconnect-Reconnect mode page (02h) 

Vital product data parameters тета 

ASCII Information VPD раде (01h - 7Fh) 

Date Code раде (C1h) 

Device Behavior page (C3h) 

Extended INQUIRY Data VPD раде (86h) 

Frmware Numbers page (COh) 

Device Identification VPD page (83h) 

Jumper Settings page (C2h) 

Supported Vital Product Data pages (00h) 
Unit Serial Number page (80h) 


Notch page (0Ch) 
Power Condition mode page (1Ah) 


Verify Error Recovery mode page (07h) 


Informational Exceptions Control mode page (1Ch) 


通过 这 个 指令 获知 到 SCSI 硬 盘 的 容量 的 。 在 其 回应 数 
据 中 ，Retumed Logical Block Address 字 段 给 出 了 该 设 
备 的 扇 区 (Logical Block， 俗 称 Sector) 数量 。Block 
Length in Byte 表 示 每 个 扇 区 的 字 节 数 。 

图 7-186 所 示 为 常用 的 SCSI 命 令 一 览 ， 括 号 中 的 
数值 为 对 应 命令 的 字 节 数 。 同 一 条 命令 之 所 以 有 多 个 
不 同 长 度 的 版 本 是 因为 历史 原因 ， 后 续 的 SCSI 版 本 中 
增加 了 命令 中 的 字段 数量 或 者 扩充 了 同一 个 字段 的 长 
度 ， 比 如 LBA 的 长 度 〈 可 寻 址 更 大 容量 的 硬盘 ) 。 篇 
幅 所 限 ， 这 里 就 不 介绍 每 一 种 命令 的 含义 和 用 法 了 。 
所 有 SCSI 指 令 都 是 由 SCSI 核 心 层 的 代码 生成 的 。 

最 终 ，SCSI 设 备 驱动 将 对 应 的 SCSI 设 备 与 通用 
块 层 对 接 ， 从 而 接收 块 层 下 发 的 blk_request 请 求 。 那 
么 ， 这 些 不 同 层次 之 间 到 底 是 怎么 “对 接 ” 的 ? 我 们 
在 前 文中 经 常 提 到 如 挂 接 、 对 接 等 词 。 不 同 层 次 之 间 
的 API 到 底 表 现 为 什么 形式 ? 不 同 函数 之 间 是 怎么 传 
递 信息 的 ? 本 书 前 面 章节 介绍 过 ， 函 数 之 间 通 过 参数 
传递 信息 ， 那 么 ， 上 文中 你 也 看 到 了 ， 使 用 SMP 以 及 
SCSI 命 令 读 出 的 各 层级 的 参数 数不胜数 。 如 果 某 个 函 
数 要 更 改 设备 上 的 大 量 设 置 参数 ， 比 如 几 十 个 ， 那 么 
这 种 代码 写 起 来 就 很 费劲 ， 而 且 不 利于 阅读 和 理解 。 
我 们 可 以 这 样 做 :把 这 一 大 堆 参数 放 到 一 个 数组 ， 或 
者 结构 体 中 ， 我 们 一 般 采 用 结构 体 ， 因 为 不 同 参数 的 
Log parameters 

Application Cient log page (0Fh) 

Background Scan Results log page (15h) 

Cache Statistics page (37h) 

Error counter log pages (WRITE, READ, and VERIFY, 02h, 03h, and 05h) 
Factory Log page (3Eh) 

Informational Exceptions log page (2Fh) 
Non-Medium Error log page (06h) 

Self-Test Results log page (10h) 
Start-Stop Cyde Counter log page (0Eh) 


Supported Log Pages log page (00h) 
Temperature log page (0Dh) 


图 7-181 4 大 类 参数 每 一 类 又 分 为 多 个 Page 
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Mode page codes and subpage codes Log page codes 
Раде code | Subpage code Mode Page Name Page Code Log Page Name 
OAh 00h Control ОЕЋ Application Client 
косы ыды сайраны отһ Buffer Over-Run/Under-Run 
02h 00h Disconnect-Reconnect = канала Dois 
15h 
эһ Pand овһ Last n Deferred Errors ог Asynchronous Events 
16h ооп Extended Оемсе-Туре Specific 
отһ Last n Error Events 
1сһ ооп Informational Exceptions Control 
o9h ооп Obsolete m on Ea 
Б = анса 18h Protocol Specific Port 
18h 00h Protocol Specific LUN озһ Read Error Counter 
18h 01h -FEh | (See specific SCSI transport protocol) 04h Read Reverse Error Counter 
19h 00h Protocol Specific Port 10h Self-Test Results 
19h 01h- РЕВ (See specific SCSI transport protocol) ФЕЋ Start-Stop Cycle Counter 
orh 00h -FEh | (See specific device type) 00h Supported Log Pages 
озһ ооп Format Device mode page (Obsolete) = Тетрегаћге 
04h - 08h ооћ -FEh | (See specific device type) = а: 
овһ-14һ 00h - РЕВ (See device 
бео pes алыгы о2һ Write Error Counter 
1Bh 00h- РЕВ (See specific device type) 
-0Ah Reserved used by specific device types) 
1Dh -1Fh 00h -FEh | (See specific device type) = (туре oned ) 
20h - 3Eh ооћ-РЕЋ | (See specific device type) ысы Reserved (may be used by specific device types) 
m not applicable | Vendor specific (does not require раде forma) | ih-17h | Reserved (may be used by specific device types) 
3Fh r Retur all pages 8 19h - 2Eh | Reserved (may be used by specific device types) 
3Fh FFh Return all pages and subpages а 3Fh Reserved 
00h - 3Eh РЕВ Return all subpages а 30h - 3Eh | Vendor specific 
图 7-182 Mode 和 Log 参 数 的 Page 号 和 对 应 含义 一 览 
Vital product data page codes 
Diagnostic page codes Pago codo VPD Pago Name Roforonce | р, Зорро bs 
Page Code Diagnostic Page Name ПЕД ASCH Information 442 Optonal 
oon Supported Diagnostic Pages a Ое» ешеси 441 landeto, 
већ Extended INQUIRY Data Optional 
Defined by SES-2 for: эһ Маладотепі Notwork Addresses дола! 
а Enclosure services devices (i.e., SCSI devices with ће PERIPHERAL 
DEVICE TYPE field set to 0Dh in standard INQUIRY data); and m а Дај L == 
oth -2Fh b SCSI devices with the ENCSERV bit set to one in standard INQUIRY data эт С 
(вее 3.6.2). эһ С” 
Note. These pages аге described in SES-2 these pages аге passed 8" SCSI Ports Optional 
along to any attached enclosure services device. ra wa r 
30h - ЗЕҺ Reserved ооһ Supported VPD Pagos 449 Mandatory 
3Fh See specific SCSI transport protocol for definition Ll ойм элә Ses 
ED Roverved 
40h -7Fh | See specific device type for definition = ЕТ] 
80h -FFh Vendor specific Con -FFh Vendor speofic 443-448 
图 7-183 ”Diagnostic 和 VPD 参 数 的 Page 号 和 对 应 含义 一 览 
MODE SENSE(10) command Caching Parameters page (08h) 
“| т n 5 . з n 1 ° ви т . n . 3 2 1 ° 
эле Byte 
° OPERATION CODE (548) ° PS | Reeves PAGE CODE (08h) 
1 Reserved LLBAA ово Reserved 1 РАСЕ LENGTH (12h) 
2 Рс PAGE CODE 2 с | mr | сар | osc | зле | we | м | кор 
3 SUSPAGE CODE 3 DEMAND READ RETENTION PRIORITY WRITE RETENTION PRIORITY 
ы —— 4 (MSB) DISABLE PREFETCH TRANSFER LENGTH 
П 5 зв) 
7 | wsa ALLOCATION LENGTH 
— . =] MINIMUM PREFETCH 
П аза) 
7 (зв) 
n CONTROL 
О (м5в) MAXIMUM PREFETCH 
MODE SELECT(10) command . 0058) 
e| 7 . 5 n з 2 1 ° о | mse MAXIMUM PREFETCH CEILING 
зле " (ив) 
° OPERATION CODE (559) 
全 Faw | ївсэз | ОВА Reserved 
1 Reserved PF Reserved se 
эз NUMBER OF CACHE SEGMENTS 
2 м | 59 CACHE SEGMENT SIZE 
3 — 15 (LsB) 
4 (MSB) PARAMETER LIST LENGTH ыы тим 
Н im || т | w NON-CACHE SEGMENT SIZE 
5 CONTROL ” use) 
图 7-184 ”10 字 节 的 SCSI Mode Sense 命 令 极其 响应 
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READ САРАСТУ (10) parameter data 


4 3 


т . 5 z 3 а 


OPERATION CODE (257) 


(MSB) RETURNED LOGICAL BLOCK ADDRESS 


Reserved 


(MSB) LOGICAL BLOCK ADDRESS 


(м5в) BLOCK LENGTH IN BYTES 


“| + |||. 


|| 


Reserved 


° 


Reserved 


CONTROL 


READ CAPACITY (10) command 
READ CAPACITY (16) command 
READ DEFECT DATA (10) command 


READ DEFECT DATA (12) command COPY AND VERIFY command 
READ LONG (10) command FORMAT UNIY comman 
READ LONG (16) command INQUIRY command 


REASSIGN BLOCKS command 
RECEIVE DIAGNOSTIC RESULTS command 
LOG SELECT command 


RELEASE(6) command 
RELEASE (10) command 


LOCK-UNLOCK Cache (10) command 
LOCK-UNLOCK Cache (16) command 


LOG SENSE command 
MODE SELECT(6) command 

MODE SELECT(10) command 

MODE SENSE(6) command 

MODE SENSE(10) command 

PERSISTENT RESERVE IN command 

PERSISTENT RESERVE OUT command 

PREFETCH (10) command, PRE-FETCH (16) command 
PREVENT ALLOW MEDIUM REMOVAL command 


RESERVE(6) command READ (6) command 
REPORT DEVICE IDENTIFIER command RESERVE (10) command READ (10) command 
REPORT LUNS command REZERO UNIT command READ (12) command 
REQUEST SENSE command SEEK command READ (16) command 
WRITE AND VERIFY (10) command SEEK EXTENDED command READ (32) command 
WRITE AND VERIFY (12) command SEND DIAGNOSTIC command READ BUFFER command 


WRITE AND VERIFY (16) command 
WRITE AND VERIFY (32) command 
WRITE BUFFER command 

WRITE LONG (10) command 
WRITE LONG (16) command 
WRITE SAME (10) command 
WRITE SAME (16) command 
WRITE SAME (32) command 


SET DEVICE IDENTIFIER command 
START STOP UNIT command 
SYNCHRONIZE CACHE (10) command 
SYNCHRONIZE CACHE (16) command 


TEST UNIT READY command 
VERIFY (10) command 
VERIFY (12) command 


WRITE (32) command 


图 7-186 ”常用 的 SCSI 命 令 一 览 


长 度 、 数 据 类 型 都 不 同 ， 那 必须 用 结构 体 来 作为 这 个 
表 的 承载 体 。 然 后 将 这 个 表 自 身 的 指针 作为 单一 参 
数 ， 传 递 给 函数 ， 这 样 函数 就 可 以 用 指针 + 偏 移 量 的 
方式 来 操作 这 个 表 中 任何 一 个 项 目 了 。 比 如 将 其 中 某 
个 项 目 改 为 对 应 的 值 ， 然 后 再 将 这 个 表 指 针 传 递 给 后 
续 负责 将 该 参数 写 入 设备 的 函数 ， 后 者 调用 SCSI 核 心 
层 函 数 封装 出 对 应 SCSI 命 令 ， 命 令 中 的 字段 取 自 该 表 
对 应 的 条 目 即 可 。 

多 数 时 候 表 中 还 有 二 级 表 。 当 然 ， 有 些 表 项 可 
以 不 用 填 ， 这 就 像 你 去 一 些 机 构 登 记 办 事 时 ， 会 碰 到 
表格 中 一 些 根本 不 知道 怎么 填 的 奇 苑 条 目 ， 此 时 留 空 
也 并 不 是 不 可 以 。 利 用 这 些 表格 做 事情 的 其 他 函数 
会 判断 对 应 表 项 是 否 是 空 的 〈 比 如 类 似 这 种 语法 : if 
(ltable->entry) 或 者 这 (!table.entry)， 表 table 中 的 entry 项 
目 如 果 是 全 0) 以 决定 后 续 罗 辑 。 
提示 > 

在 C 语 言 中 ，table->entry = xxx 与 table.entry = 
XXX， 这 两 种 对 结构 体 中 项 目 进行 赋值 的 方式 的 区 
别 在 于 ， 前 者 table 是 个 指针 型 数据 ， 也 就 是 其 存储 
的 是 table 这 个 结构 体 在 内 存 中 的 首 地 址 ， 而 后 者 
table 直 接 指 代 的 就 是 table 结 构 体 本 身 。 所 以 针对 这 
两 种 使 用 方式 ， 需 要 分 别 用 -> 和 .的 方式 来 引用 对 
应 的 项 目 。 如 果 entry 中 存放 的 是 一 个 函数 指针 ， 那 

么 只 要 代码 中 出 现 比 如 table->entry ( 如 果 table 为 指 
Ж) 或 者 table.entry， 便 执行 了 entry 指 针 指 向 的 函 


数 。 如 果 你 实现 了 自 定义 的 函数 ， 就 可 以 用 这 种 方 
式 将 自己 的 函数 挂 接 到 表 中 ， 也 就 是 用 上 述 的 赋值 
方式 ， 这 个 过 程 又 被 俗称 钩子 (hook ) 。 


表 中 大 致 存放 了 两 大 类 信息 。 一 种 是 各 种 独立 的 
参数 ， 比 如 一 个 设备 的 写 缓存 是 否 已 被 打开 、 运 行 速 
率 等 。 另 一 种 是 记录 了 对 应 处 理 函数 的 指针 ， 比 如 有 
IO 发 给 了 这 个 设备 ， 应 该 调用 哪个 函数 来 接收 处 理 
这 笔 IO 请 求 ， 该 设备 的 驱动 程序 必须 将 自己 实现 的 
ГО Handler 函 数 的 指针 写 入 到 对 应 条 目 中 。 

不 同 的 设备 都 对 应 着 一 份 表格 ， 虽 然 同类 设备 的 
表格 形式 都 是 一 样 的 ， 但 是 填 入 的 内 容 可 能 不 一 样 。 
一 般 来 说 ， 驱 动 程序 会 先 调用 xxx_alloc_xxx0) 函 数 向 
协议 栈 申 请 一 份 形式 空 表格 ， 给 该 表格 起 一 个 名 字 ， 
这 份 表 就 是 自己 的 了 ， 后 续 会 填 入 对 应 内 容 ， 这 个 过 
程 叫 作 实 例 化 一 份 表格 。 

用 结构 体 来 在 函数 之 间 传递 大 量 信息 ， 是 实际 程 
序 编写 时 常用 的 一 种 思路 。 


7.4.3.6 形形色色 的 登记 表 


РСИРСТЕ Виз Driver 在 枚 举 PCIE 网 络 时 ， 会 把 
所 有 发 现 的 与 PCIPCIE 总 线 相关 的 信息 填 入 到 struct 
pci bus 结构 体 中 ， 而 将 发 现 的 PCUPCIE 设 备 的 相关 信 
息 填 入 到 struct pci_dev 结 构 体 中 。 

图 7-187 所 示 为 Linux 操 作 系 统 中 的 PCILPCIE Bus 
Driver 模 块 〈pcih 源 文件 中 ) 定义 的 pci_ bus 结构 体 。 
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struct pct_bus { 
struct list_head node; 
struct pct_bus *рагепї; 
struct list_head children; 
struct list_head devices: 
struct pci_dev *self; 
struct list_head slots: 


struct resource *resource[PCI_BRIDGE | 


struct list_head resources; 
struct resource busn_res; 


struct рећ_ор5 *ops; 
struct msi_controller *msi; 
void *sysdata; 


struct proc_dir_entry *procdir; 


unsigned char 

unsigned char 

unsigned char 

unsigned char 
#ifdef CONFIG PCI_DOMAINS_ GENERIC 

int Чотаїп_пг; 
#endif 


number ; 
primary; 


char пате[48]; 
unsigned short bridge_ctl; 
pci_bus_flags_t bus_flags; 
struct device k 
struct devtce dev; 
struct bin_attribute 
struct bin_attribute 
unsigned int 


/* node in list of buses */ 

/* parent bus this bridge is on */ 

/* list of child buses */ 

/* list of devices on this bus */ 

/* bridge device as seen by parent */ 

/* list of slots on this bus; 
protected by pci_slot_mutex */ 

NUN]: 

/* address space routed to this bus */ 

/* bus numbers routed to this bus */ 


/* configuration access functions */ 
/* МІ controller */ 

/* book for sys-specific extension */ 
/* directory entry in /proc/bus/pci */ 


/* bus number */ 
/* number of primary bridge */ 


max_bus_speed; /* enum pci_bus_speed */ 
cur_bus_speed; /* enum pci_bus_speed */ 


/* nanage NO_ISA/FBB/et al behaviors */ 
/* inherited by child buses */ 


*legacy_to; /* legacy I/O for this bus */ 
*legacy_mem; /* legacy men */ 
is_added:1; 


图 7-187 pci_bus 结 构 体 


РСИРСТЕ Bus Driver 在 枚 举 PCIE 网 络 时 ， 会 把 所 
有 发 现 的 信息 填 入 这 个 表 中 对 应 项 目 。 每 发 现 一 条 
PCI 总 线 ， 就 申请 一 个 新 pci_bus 表 并 填充 内 容 。 篇 幅 
所 限 ， 这 里 仅 列 举 几 条 ， 其 他 请 大 家 自行 了 解 。 

例如 unsigned char number，unsigned char 指 的 是 
number 这 项 的 数据 类 型 为 无 符号 字符 型 ，number 记 录 
着 该 总 线 的 总 线 号 。 怎 么 得 到 总 线 号 ? 如 果 忘记 了 ， 
请 回顾 本 章 前 文 内 容 。 

再 比如 primary 这 一 项 ， 记 录 了 推出 该 总 线 对 应 的 
桥 的 上 游 总 线 号 。 

图 7-188 和 图 7-189 所 示 为 PCIPCIE Bus Driver 每 发 
现 一 个 PCLPCIE 设 备 时 要 填 的 表 : struct рсі деу. 

发 现 了 设备 之 后 ， 设 备 管理 模块 会 加 载 对 应 PCI/ 
PCIE 设 备 的 pci_driver， 加 载 过 程 也 是 通过 从 对 应 的 
表 ， 也 就 是 struct pci_driver 结 构 体 中 获取 信息 并 判 
断 的 。PCIPCIE 设 备 的 驱动 程序 负责 填充 struct pci_ 
driver 表 ， 其 中 填充 了 一 些 关键 信息 用 于 设备 管理 模 
块 判断 该 driver 到 底 能 驱动 哪些 Vendor ID 的 产品 ， 从 
而 做 出 加 载 与 否 的 判断 (记录 在 其 内 部 的 二 级 结构 体 
struct pci device id на table 中 ) ， 以 及 该 驱动 程序 加 载 之 
后 运行 的 入 口 函数 在 哪里 《记录 在 int (sprobe) 指 针 中 ) 。 

该 结构 体 如 图 7-190 左 侧 所 示 ， 该 结构 体 中 记录 
的 几乎 都 是 用 于 各 种 流程 处 理 的 函数 指针 。 图 7-190 
右 侧 所 示 为 某 个 PCIPCIE 设 备 驱动 程序 中 的 代码 片 


段 示意 图 。PCIPCIE 设 备 的 驱动 程序 代码 中 需要 按 
照 该 结构 体 的 定义 ， 实 例 化 一 个 属于 自己 的 表 ， 并 
填 入 自己 实现 好 的 各 种 处 理 函 数 指针 ， 之 后 调用 设 
备 管理 器 提供 的 函数 pci_register_driver()， 将 刚才 填 
好 的 名 为 my_pci_driver 的 结构 体 实例 表 的 指针 作为 
参数 传递 给 它 。pci_register_driver() 会 拿 着 这 份 填 好 
的 表格 ， 走 内 部 流程 ， 将 信息 注册 到 设备 管理 模块 
中 。 至 于 内 部 流程 都 是 哪些 流程 ， 大 家 可 以 自行 阅 
读 源码 学 习 。 

PCIPCIE 设 备 驱 动 程序 被 安装 到 系统 中 时 ， 就 
会 执行 上 述 的 注册 过 程 。 当 PCIPCIE Bus Driver 发 现 
某 个 PCIPCIE 设 备 后 ， 设 备 管理 模块 就 通过 调查 所 有 
了 PCIPCIE 驱 动 程序 当初 注册 进来 的 struct pci_device_ 
id *id_table 中 的 Vendor ID 来 判断 有 没有 匹配 的 。 如 果 
有 ， 则 执行 对 应 驱动 当时 注册 进来 的 *.probe 函 数 进行 
后 续 流程 ， 如 果 没 有 ， 则 该 设备 (比如 Windows 中 会 
提示 “未 知 某 类 设备 ”) 无 法 使 用 。 

在 PCLPCIE 设 备 驱 动 的 probe 函 数 下 游 ， 做 了 大 
量 的 后 续 步 又， 是 个 超级 大 函数 ， 比 如 其 会 对 底层 
PCIE/PCI 设 备 做 各 种 配置 初始 化 。 对 于 SAS НВА, Ж 
驱动 程序 对 下 要 对 HBA 各 种 参数 做 初始 化 ， 对 上 ， 则 
需要 申请 一 份 struct sesi host 表格 并 填写 ， 从 而 尝试 与 
上 层 的 SCSI 协 议 栈 对 接 上 。 如 图 7-191 和 图 7-192 所 示 
为 struct ѕсѕі host 结构 体 。 


#78 ЕЛО 


а) 3628 34dIOd/IOd 881-264 


/« SWOY uolsupdxa + зисубој Аломом рио б/т «/ :19Э8ПОЅЭН INNO 33TA30]ə32Jnosəj әэзпозәз 32nJ35 
ibn au реџбузип 

И 

үзшәлә] Пр әд зубры Aay; -эләц ралој5 запђол ay} asn “Жүуээлр , 

512331624 ssaJppD 2504 рир әчү] заполэзиз биз42тоз Јо ррәузот x 
а/ 
/« 22045 иоузо.тбъуиоэ Јо 2215 ,/ :а215"632 w 
/« әэојләзир 2343P 271209 „/ 

x 2303$ Иззлз2ащио> зиэлт> „/ 


їләр әэуләр ns 
za3e3s зоззә 3 eq383S 1э4иец2`124 


s 23035 ЖЗЛ МаЅУ +/ САМОИ азе Hu ed 320.235 


Fipuay 


WdSV3ID2d DIJNOD JƏPjl# 


s SU U} әш} џозаази0ла 60<-P1o2E0 #/ “Keləp рүо жр зу реџбузип 
x su из әш}з UO}IISUDII 00<-£0 +/ :Kelap ep зил реџбузип 
As 5455 Jasn 
49 Куолузтухе рәүүолзиоэ 

®лоўоэ}ри}у 1322015 »/ ‘ұ:ѕзодеоуриу Jasn 6119304 3u} раибузип 
/x s3uana 614304 3J0u6T „/ *1-6119304`ал04бу 3u} решбузип 

x 2691-94 биуриодәллоэ 

aya ла ffo/uo pəJənod 

зәэуләр Јој 225 з0и “p1o2£0 
әшүзипә убполуз об лэцзаци „/ {тсрүоэєр әшудипз — зић реџбузип 
‘T:pasedasd дпаден 3u% рәшбузип 

/x Butz1s Joq биртр Бизрозар 
џашјоћ ffo Guyusn3 sollpsip „/ skeme ом зит реџбузип 
As Jasn Ка рәмоүүр 5} р190254 +/ IT: pənolle plo2EP зиз реџбузип 
/« образа 40} са моу #/  їт:єр әбрузд аи раџбузип 
/e uapplqiof $} Plo250 +/ — їү:рїозє р ош 3u} раџбузип 
/« чэрръдзо] aso гд рио та xf <T:zpfP ou 3u} рәибуѕип 
/x pasoddns s} zq 23035 Jamod noq x/  ‘1:33044п$ гр 3u} реџбузип 
/« pa2J0ddns 51 ТА 22935 Janod мот ,/ :1:3104415 tp зил рәибї1зип 
An 314 Sn2D2s Эма $, ээзлар 1104 „/ :T:ttod aud зил рәибїзип 
:T:3dnJuaqut awd 3u} рәибуѕип 

/а разолгизб әд ио> 

#зна Ҹәъцт шол] $23035 fo yspuqig 2/ :5:34oddns aud 3u} рәибуѕип 
/“ зав До 4331192952 Wd „/ ‘dey ud вп 


fa 7330 04124 54 рио 

“триоузэипу Aring Buraq ва “gg ва 5} SHI 
“ypads-IdDY UI `эзозѕ 601304240 уиэлту „/ 23235 зиезат> 3 Janod 124 
“sused eup SJa3aueJed -eup-a21Aap 32235 


x “5JajfsupJ3 234-9 53J0ddns Jo 
WWG чәҳоЈ9 soy әэүләр Jnor f) 5143 
abuoy> оз pəəu #үио под -re 
51 $143 АјуршјоМ “squəuəldui ээзләр 
5143 ѕѕәЈррр sng Јо $334 243 Јо дон „/ 
{+ 22}4ƏP 5142 розр2ојјр $04 JƏALIP узум ,/ 


Тубемтемр тэп 
23әлузр, Јәлъзр”үәб 321235 


< sasp11D ијлар рајдриг Јо yspu ws/ :seu зеује ешр, био] раибузип 
Jz 12351624 sal331319pdp] 2124 Pad2p2 „/ “Баз s6e1j 2129 ELGI 
/ sasn аззлар 5143 ud здпладић YIM ,/ ‘uyd вп 
{+ МОМ 243 51023002 12351622 бујио2 YIM ,/ бәз әѕедшоз вп 
/x Р232040п5 2215 ро] од XOW 2124 «/ ТЕ: зоб“ әү gn 
/« 3əsffo (a111qodo2 X-ISW «/ :dey хузш gn 
/Ls зазјјо &31119240> ISW 4/ dey узы gn 
А. 3əsffo Кззуадодоз 2128 „/ дез aod gn 
зурчен 
/ 3əsffo 23119000ә YN «/ !de>ə_jəe 9тп 
WM3V3ID2d OI4NO jƏpjl# 
7. (ano рәўзош 651$ „узули,) гака Jəppəq 124 „/ їәйЛу эрч gn 
/, рзом 55012 Јо ə4Áq мо] “uolsiAə2 124 „/ “шоузуләл вп 
/. (fy-6o2d*qns “əsoq) :52349 Е af (5512 3u} рәибузип 
гаоулер мед5Авдл5 32045 pau6tsun 
:JopuaA usasAsqns 3jous рэибузип 
3a51Aap oys реџбузип 
:JopuaA 32045 реџбузип 
/. харић uolaounf g ээзләр раро2из , / “иләр 3u} рәшбузип 


x U} st ə2t4əp 5143 3015 1221544 „/ 13015, 3015 124 321235 
(+ 124/5пд/эоза/ u} блзиа әэуләр „/ 13492044, KJ3u8 JYp 303d 321415 
/ чоузиазха эз [)эәйѕ-5/ѕ јој ооу „/ :eyepsAsy proa 


тәдеиуродпѕ, $19124 32nJ3s 
:snqx snq 12d 32235 
23517519 peay 35 221215 

] nap 124 321233 


fs оз зәбр1лф anap $143 SNG ,/ 
fx Чо 51 әэзләр SII SNG ,/ 
[+ 3531 579-424 из әрои ,/ 


со же иоалоа 681-284 
NLd 3124 DIJNOD зар 


/» зарјтова fo биуййрш 34 јој 215] $4545 „/ '[338400S3W LNNO аотазај>м зузе 523, 2314915332014 17115 
/s заојпозеј јој әү] $4545 ,/ [aodn0S3d LNn02 -32IA30]J33e әз, 33nq1J33e шъ 320235 

As грајдоиа uəəq a3ng1J33D wos əy} Јо Крудозр $04 ,/ :palqeua J33e мој зи 

|, Козиз WOY sfshs јој зоудулэ<эр 23412332 ,/ * уууе мој, 2319143497014 321235 

{22245 de> релез ргә 35814 321235 

Jx 2413 puadsns зр ралр5 22045 61Јиоз „/ :[9р]23245 61ји02 paAes zen 


/% pal1p2 uəəq soy a23Map 3a19pua 15d , / 53u2 atqeua 3 орозе 
‘5621$ ләр 3 $621} ләр 124 

x uay} элоиб} ‘syyg 424049 «/ :Tt:SJeq yuevilduo> uou 3u} рэибузип 
грофа Азерџозе5 seu 3u} реџбузип 

гргребеџеш Блу 3uy рембузип 

x ѕморизм O/I AT 26р149 ага 12391 */ ‘t:A ториъм оу 3u} реџбузип 
гр: биуусем“хаиу uayolq 3u} рашбузип 


5T:3SJ1 ојеншлуј Jae _ 3uy рәибуѕип 

IT:pAleAC1S31J эземыл у jəe — 3u} рэибузип 

/s 121193402 1109J3apunW ,/ *т:31092эрипцз SY 3u} pəubisun 

ч гт:ебру од 6114304 s} 3u} реџбузип 


{+ Јәл}2р 124 243 Jof 5601} 2304344 „/ :s6e1 md био] реџбузип Тиј“ завал зил рашбузил 


:usY 3uy роџбузип 


/x {PIDU D 2220} оў гири JƏA1J2Q „/ *әрүззәло зәлузр, JedD :T:ujsAddrst 3u} pəubusun 
/x Чун 243 uojf зои 5,31 ft мом Јо узбиәт ,/ :uatuo 3 0215 “р:рэлез ayeys 3u} реџбузип 
“ /« avg 291 шол] зои 5,71 Ја мом fo ssəjppp 1p21sñud „/ “оз 3 зрре sKud ЈА 32521 јозигиррипј ses1nbas ләй ,/ '1:39592) spəəu — quy реџбузип 
трче т:рәбешеш 51 3u} реџбузип 
Hü /« Palgoua 51у уз1м san fo saqunu of 3 зал эде 3721uoae А 221A2ƏS uol3p1SuUDJI ssaJppy ,/ 'р:ројдечо sze 3u} реџбузип 
m /x ILUN и0320]50021 qsəllDusS SLY ,/ “ayu wwe gn x бизрәютмло] Тау ,/ :рәүчечә rse зил pəubusun 
| /х зэ5До (a311qodo2 51у «/ :de> эзе Е (T pəlqeuə xysu 3u} раџбузип 
= pəlqeuə isu ашу реџбузип 
5 [+ Чари р230120550 S} JA 5143 dd 243 ,/ tuysKud, мер 124 32235 /» зирүлюол бијзпојај дут ѕрәәи ээзлар ,/ :2:зче1лел“эзпозэл bs зил рәибуѕип 
Е? /« рәзо]әл 311140402 AOI-YS «/ nos» NOHS Pd 3213$ /% (31200 an331sod 2510] sa3pJaua5 э2}^э4 #/ ‘Tt:snyeys Ауузей медоја 3u} рәибуѕип 
ШЇ _ } ucun Д радзојд 51 552220 aopds 614ио> ,/ :1:35922е 64542019 3U} реџбузип 
# SIV 124 913№2 3әр3з# As sISW 219-25 asn Кио ќои aolhap „/ ‘TAS ұлды ou — qut pəubysun 
је 2рал, pdA id 32n.3s ЈА 154 25п зои [pu әэуләр ,/ :T:tsurou 3u} рәйбъзип 
№ Е тте / Јәјѕриѕпа sl ə2lAəp „/ :T:Jalseusnq sı 3u реџбузип 
© :sdnoJ6 bI} 1suyy dnoJ6 а3п91233е 32n.3s 35002 ‘Tt:pappe st 3u} рэибузип 
щш ISH IJd 513405 јер /x 23035 əətaəp {о 42043 dəəy ,/ 
Ж тр /fs аэуләр иоуззип/-үзүлш fo 3Jpd „/тү:чоуузипуутүпыш 3u} раџбузип 
| :atuetnueJ6 und яп /Js 26p32q IJd әроәр 2^1320434п5 #/ *ұ:ачәзейѕиезу — qut pəu5usun 
= 区 :patqeus wd 3ut рәибъѕип /x sdnxif uouuo2 Áq pasn әлә splətf 25241 ,/ 
@ <T:3ooy ud зч рәибъѕип x зар Биуузрззр 4135 „/ =JaAtJP Чрзеы 1004 
5 
Ед 


878 ИО ИН 


yayap 159 061-18 


Ба ВУНЕ / 

(лелтар təd Аш») ләлтлр ледстбел тоа 

Вау уН / / 

4 
“ITeTpued ллә тоа uş = ләтриец лдә' 
“umopanus Аш = umopanus * 
‘эшпзэл Аш = әшпБәл', 
‘puadsns Аш = puadsns: 
'оџо олошол Аш = олошол * 
‘эцо әдола Аш = эаола* 
“таз Tod Аш = әтдез рт: 
“ ЯИЧМЧЯЛТНП Аш = эшеи* 


) = долтлр тоа Аш долтлр тоа 3onz3s orqeqs 


Ҷ 
¿sptuÁp sptuKp 124 321235 
:JaA1Jp 3JƏA13p езулер 12nJ3S 
©зәүриец”ззә, SJalpuey JoJJa 12d 15п115 35002 
/x лара jd „/ :(SJA unu 301 “ләр, Лер 129 12nJ3S) (ƏjJn6tjuo5 A013JS,) 307 
(ләр, мер 12d 12nJ3S) (unop3nys*) pron 
/« dn uəyon әрлә „/ *(Aəp, мер 124 12nJ3S) (ешпзај,) ул 
*(Aəp, лер 124 12nJ3S) (Күзгә әшпѕәз,) 341 
“(2323$ 3 эбеззэы ud “ләр, лер 124 32п3$) (2321 puədsns,) ул 
/x papuadsns а21ла4 „/ “(2323$ 3 эбеззэы ud “ләр, лер 124 32п-3$) (puədsns,) ju 
/x (лэлзар əlqpdp5 61]4-304 р jou f} TINN) рәлошәл әэ1ләй „/ (ләр, мр 129 3213$) (әлошәз,) рлол 
/x palJasul голлар мам „/ “(Pl, PY әэүләр 124 32п.3$ 3502 “ләр, ләр 124 уоп115) (әдозі,) ул 
/x Рэ1122 әд 03 agoJd јој TINN-UOU 24 asnu „/ “əlqe@3 рү, PY Ə31Aəp 129 12nJ3S 35402 
Ташеџ, JEY 25000 
:apou peay 351) 121235 
} JaAJp 124 Pns 


/hr Mnsa! AYINDNI (saMq 9Е>) 1045 чим рәриоаѕәл з5он ,/ 


{ү:з#тт pu ssn рэиббип 

ТВИН 55) бури жута asn pou6lsun 
#|:зшее aaTzm ou pəuñisun 
1. IWYS ЗИЧМ\ boddnslou saop Jallonuoo adl ,/ 
#|:ашлеалош yə pauGlsun 
/+ На ut 1sou әшпә шоп of 


gana ас 1 774 
С и #у:изов oukee pau6lsun 
Ту 53916014 ul ueəs snouonpuúsy W 


СИДОН РИУ | !):везхбол! ur yun pou6lsun 
s звәлбол@ ul иорэипу зшби хе} ,/ 


{ү:бштләрло əszəaəz рәибүзип 


Ie 

{2265 a y 

реал Ауепазе зющуле asoum лэлир JO Ашошш 941 10] 195 , 
St ид 241 ‘бирарю Jd You биџарзо 155 P3109 SASN ISOH + 


/ 
а Б ГТ. 
‘PARURA ЖЕШДНРШАШ// :1:Рәхоота зтәє 3504 рәибузип 


ГА 
"Buraq әш, 
91 104 ynos} awo) sysanbay зәцип; ou зеца palsanba зец 1soH s 


~“ 
#1:6иттадепто asn pəuÓisun 
timp esr payosyoun pou6lsun 


(BIero MuE 10:9рошәлтаэә peu6lsun 


élS SN// :zaqamo Terzac Рао био pəuñisun 


h 
Spol 1504 әш Aq раразол4 + 
“spusə әш ol suəquunu lgbas u5lsse ol pasN + 


NEVIE ED} ° НУЗЯЮШ-ВОЗТЮИ/ “=ənənb aq” za pau6lsun 


766 


SFR 


СТ) {БОД məosinns [61-26 
„ 
“ananb ueo , sənənb му л Si» 
3504 1əd цудар ananb leyo} ay} “spom Jatho ul ananb џез , 
зо hdap ənənb е seu ənənb гјемрјец Чрез Jey} pəuunsse s! Y :230М + 


“ат 24 Áq pətuoddns sənənb гземрјец JO JəQuunu JU} ‘эрош Ыш- ul , 


{Azepunog ешр биој pau6lsun 

{6201956 кеш уш ргибњип 

{әттеэтдез зо24 Бә ұш pau6lsun oys 

їзттвзтче1^Бе зи pau6lsun uoys 

tuny zad puo poys 

{ananb ueo yul 

{рт arq3 yul 

пре бафајејаиојен ° виуфезејушој 3504 SSR // 
АБОД RAAE тэт рез еш uoys pəubisun 


h 

трәшпзе, 

51 21 JO ənleA е 'рјођ SII 125 Muop IUI взәлир 104 , 

“sqp? 四 ual əlqeueA Suoddns зәлир әш И 092 20 „ 

‘зо Jol 91 aq plno nq Sialdepe 1504 150ш 304 21 41924014 , 
3daooe ULI 3504 SIU} JEU} 5риешшозэ 1575 Jo чабиој шпшхеш JUL s 


4 

рт эвЬтиа yur pau6lsun 

Succaunigrgana=// боот жеш рэп 
Бы лы ы {рт кшш ущ pau6lsun 


S,EWCCWSNENSEQSE// ‘тэчазчз xas ju) pau6lsun 


Га 

“(susənsÁs fallesed 155 104 8 5al што, 

P! хеш Ienpe 24} шец, alou | 01325 әд PINOYS ома ISP adl » 
$25519 ајбјупш uoddns зеца ѕәддере 1504 20} pue , 

1525 әри ор MOJJE 0} pasn әд иеэ зладашелед зал әѕәці + 


РА 


(ејђева ли EV/ :3ssaz зєтт био! реиббип 
#аштррезр чә ju! 
/= бийриец зоша ut quəds au эцу punoq о разп әзе зрјец ом зхзи „/ 


+ задао GHREIS SNS PW JO 21015 дпуед ,/ {3211 2225 


Ја EAEAP е ә 1525/208/ Na 130 11201 ој pasn ,/ #073204 ущ рембњип 


{рәтпрәцән цә 3soq ущ pəubisun 
/„ роГазоц Аа palaloud 
fpsTrs3 3soq 3ш pauñisun 


/+ риешшозэ зпоцум рәјпрәцоѕ НЭ ,/ 
"рәјеј yey} риешшоо ,/ 


ЖЕЗАЕБО5ЗЫШЖЕН// :paxooTq 2204 3 отшозе 
Ja влэнмог uo әлдәе Állerqpe зриешишоз ,/ {Жапа asoy 3 -Drmoae 
КИ ШОНЕТ ЗЕ 7 
ч 
БЫШМЫМҮНРӘРЕЅ25// “355 Bes 338 Бә: bu ита Dnns 


taba, Без ananb xt pnns 
) uolun 
„ 
доии тїп + 
эд им 'pəpəəu J) деш беј paleus e daay ol валу + 
/ 


NSIS eI// ‘Ззто4виез3» эзетїшә{ 3zodsuez3 raos INNS 
ЭШИШОШЫПЛЕЕ// :3380ч, эзттїшәз asoy тов 1214$ 


148548 5// :3Ten 5804. 3 peaq snənb'aren 
7,150. 
эш uo SUORE 24245 10у Чем „/ {Чотзэ® цә 。 чотзәтдшсо pnns 


Ту заврше арени Peay, Азалозај 1017 W !zətpuvuə „ 
3396829 1595G89%siChiq// “b pu чә 


321239 hee pnns 
Psaq з= pnns 


1. Anne Butuueos əzlleuəs v/fxaanaraeos жәзпш pnns 


з“жаотитае 
3" уоститае 


#fa29T asoy, 
to0T atnegəp 


Peay зетт pnns 
Peaq asTT pnns 

па аацавау/ {X00T asrT зар aooTurde 
hss)s)// {Tood puo, rood puo asoy teos pnns 


32881068Ф481555// :38TT Рато 


рвач 3sTT pnns 
peaq 3sfT nns 
) зон rso5 NNS 


/Te — 
就 到 村 锯 // :еәотләр — 


583 


(T) Hias 165$ lonns Z61-L 图 


ц #bzz уш pau6lsun 


4((((6uol рәибіѕип) ;оәдѕ) речбтте)) _ эзачтлзае | #Təuueuo ewp Jey? pau6lsun 


AHms3ypads 3504 Jo ə6e1ols 10; pasn „/ [0] es3sp3soq биој рәибіѕип :3zodror u зец» рәибіѕип 
ЭР gs9gsma=// /. SS080/// — !azod ox био pau6lsun 
epunoq био] e ol зиэшибие y :assq био рәибіѕип 
22101 Ајездешоупе },иор (89ш) siəliduuo2 awos əsne2əq osje pue y ју dep Азебај ,/ 
әзиешюрәд зәцәд 104 що 'рәибце S! si) PPY} ainsue pinous ом + 
~ МҮШ НКЕ ЗЕН 全 RD SOSEN је ЕН 5 +В Бәл зовет, зпапр зезпрах pnns 
ГА 
{һәр ешр, зотазр PNIS 61 Əəedsaəsn ш passaoojd әд ol рәәи , 
Үс 261 зеца ѕ1ѕәпрәџ зәціо Kue Јо з1иэла 3uÁse 'S6suw 161 1525 104 рәп b y 
`stsou JENJA алец ам ASLI и! lsnf papaaN + a м 
VING ор ol asn р,әм ээ!лэр SNQ |22154 ә 0} Sulod + А. 
у 681 4әЧ4Аз pzen5 3029 JP раиббип 
881 #азтатррдебео gozd ju! рәибіѕип 
ЕИҤЮЕПВ&И505Е8 ' раја дивне ‘езер звоче, рюл = |, uonguuojul џопоадоја af 
h ои 
рат s a RORUFEANHE "БИЗЕ НМ ПЕШ] :paxcorq asod жеш ин раибрип 
ралезоце $1 Чоц (Kue у) едер uodsuen әш ol Slulod + ЕВЕ шой ашпог рәрок ЖОЦ О 
umop ` 
Y e Í 
= = = 181 
{етт Аоебәт 34s реэч 3271 nys 081 #|:аро ur опт ztsos ou рәибјѕип 


вд 
~. ~. f. [0882 и! рәло әд 0} LON зид Nm 243 залпа. uodsuen əul ,/ 
We әпрош/ниГәпрош, вур ч 
Ка Апрнаци pazuoudpuAs $1 1⁄ 0} 559296 2591 103 + Т 


а 1Б зом уша, qənzas ananbyzom 5 
ереше De6al юу rampous Да əsn юу Auo 59, |57 НД а още 


h 


x 511 Ənənb yom џорзипј зиэшэбеиеш #52] y 
aelduual 1əd 51509 JO 15 + "а 5} 
Е _ м [ й 
зааел69(5зер 150ц5) аео ТАЗЕ 1505 М RHEN 21505 BARREA :ЛӘр 15045// zil tb утом, 3onz3s ənənbyxzom 4214$ 
{ләр 3504$ ‘лэризБ зғоҷе »отазр pns ші ПОМНИ R// + 102] aaa b ухом зец 
ERRA snq 1505) ЕЖЕ 5 Маузер SDS ' зета лан APU 1sous// /, suq WPI „/ DLL h 
691 џодѕиед әщ Áq pəzllün әд о} әпәп жом leuondO + 
чу] :aaeas-3soqs 23932 4204 Tee Unua 891 “ 
191 


991 #1:Ахтабит 3zoqs pau6lsun 


5 可 大 话 计算 机 一 -计算 机 系统 底层 架构 原理 极限 剖析 


SAS HBA 的 LLDD 驱 动 程序 需要 实现 自己 的 
针对 SCSI 体 系 I/O 方 面 的 处 理 函数 ， 比 如 最 关键 的 
queuecommand 函 数 ， 以 及 一 些 错误 处 理 方面 的 函数 和 
SCSI 设 备 扫描 方面 的 函数 等 。 驱 动 程序 将 函数 填 入 一 
个 scsi host template 结 构 体 中 ， 再 申请 一 个 scsi_ host 结构 
体 ， 将 scsi host template 结 构 体 指针 注册 到 scsi_ host 结构 
体 中 用 于 记录 该 template 结 构 体 指针 的 项 目 中 ， 相 当 于 
在 scsi Поз PA — веза host template 自 表 。 这 样 做 
是 为 了 降低 scsi host 结构 体 的 尺寸 ， 显 得 更 有 条 理 ， 虽 
然 理 论 上 所 有 条 目 完全 可 以 被 放 到 一 个 大 表 中 。 

LLDD 调 用 SCSI 协 议 栈 提供 的 scsi_scan_host0 函 
数 完成 对 SCSI 设 备 的 枚 举 过 程 。 准 确 地 说 是 ， 底 层 
先 采 用 SMP Discovery 发 现 SAS 设 备 ， 然 后 连接 到 对 
方 的 SSP Tgt， 发 送 SCSI Inquiry 命 令 获取 隐藏 在 SAS 
端口 之 后 的 SCSI 设 备 的 信息 。 然 而 这 一 切 都 对 SCSI 


协议 栈 隐 藏 起 来 了 。LLDD 虑 拟 出 一 堆 通道 、Tgt 的 
ID， 用 某 种 方式 将 这 些 ID 与 设备 的 SAS 地 址 映射 起 
Ж, Lun ID 则 与 每 个 SAS 设 备 内 部 的 SSP Tgt 后 方 的 
Lun 一 一 对 应 。 

至 于 扫描 过 程 中 发 现 的 每 个 Tgt， 则 由 SCSI Bus 
Driver 生 成 并 记录 在 一 个 struct scsi_target 结 构 体 中 ， 如 
图 7-193 所 示 。 

对 于 发 现 的 每 个 Lun，SCSI Bus Driver 会 生成 并 
填充 到 一 个 struct scsi_device 结 构 体 中 ， 如 图 7-194 和 
图 7-195 所 示 。 

Bus Driver 会 将 SCSI Inquiry 指 令 得 到 的 Lun 的 设备 
类 型 、 厂 商 ID 等 信息 填 入 该 表 中 ， 并 按照 厂商 ID 加 载 
对 应 的 SCSI 上 层 设备 驱动 程序 ULDD (如 果 是 SCSI 硬 
盘 类 设备 就 加 载 sd 驱 动 ， 对 应 Linux 操 作 系 统 源码 文件 
sd.c) 。 


1 struct scsi target { 
2 struct scsi_device *starget_sdev_user; // 指 向 正在 进行 /O 的 scsi 设 备 , 没有 |O 则 指向 NULL 
3 struct list_head siblings; //%А:ЕЎШЕЙСЕЙагде! еее 
~ struct list head devices; ”// 属 于 该 target 的 device 链 表 
5 struct device dev; /通用 设备 ,用 于 加 入 设备 驱动 模型 
ч struct kref reap_ref; /* last put renders target invisible 本 结构 的 引用 计数 */ 
8 unsigned int channel; ”// 该 target 所 在 的 channel 号 
9 unsigned int id; /* target іа... replace 
10 * scsi_device.id eventually */ 
11 unsigned int create:1; /* signal that it needs to be added */ 
12 unsigned int single_lun:1;  /* Indicates we should only 
13 * allow ЏО to one of ће luns 
14 * for the device at a time. */ 
15 unsigned int pdt_1f_for_no_lun:1; /* PDT = 0x1f 
16 * means no lun present. */ 
17 unsigned int no_report_luns:1; /*Don'tuse 


18 * REPORT LUNS for scanning. */ 
expecting_lun_change:1; /* A device has reported 


19 unsigned int 

20 * a 3F/0E UA, other devices on 
21 * the same target will also. */ 
22 /* commands actually active on LLD. */ 
23 atomic_t target_busy; 

24 atomic t target blocked; 
25 

26 A 

27 


// 当 前 阻塞 的 命令 数 


* LLDs should set this in the slave_alloc host template callout. 


> * If set to zero then there is not limit. 
274 
је unsigned int can_queue; // 同 时 处 理 的 命令 数 
32 unsigned int пах target blocked; Паво ЖН 
33 #define SCSI_DEFAULT_TARGET_BLOCKED 3 
34 
35 сһаг scsi_level; /支持 的 SCS| 规 范 级 别 
36 enum scsi_target_state state; //target 状 态 
37 void “hostdata; /* available to low-level driver */ 
38 unsigned long starget_data[0] ; /* for the transport SCSI 传 输 层 ( 中 间 层 ) 使 用 */ 


/* starget_data must be the last element!!! */ 
} attribute _ ( (aligned (sizeof (unsigned юпд)))); 


图 7-193 


struct scsi_target 结 构 体 
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提示 > 


SAS 硬 盘 的 SCSI Device Driver 已 经 内 置 到 了 几 
乎 所 有 操作 系统 中 ，SCSI/SAS 硬 盘 的 操作 接口 比 
USB 设 备 还 要 简单 ， 而 且 所 有 SAS 硬 盘 接收 的 都 是 
标准 的 SCSI 指 令 ， 交 互 方式 也 是 SCSI 交 互 方式 ， 
并 不 像 USB 设 备 那样 ， 内 含 多 少 个 EP、 每 个 EP 的 
作用 、 命 令 的 格式 等 信息 只 有 对 应 的 设备 驱动 才 知 
道 。 所 以 所 有 操作 系统 都 自 带 了 通用 标准 的 SCSI 块 
设备 驱动 ( 比如 Linux 下 就 是 sd.c ) 。 


sd 驱动 加 载 之 后 ， 会 向 硬盘 发 送 比 如 SCSI Mode 
Sense/Select 等 更 进一步 的 设备 信息 探查 命令 ， 获 取 到 
一 个 SCSI 硬 盘 设 备 应 该 具有 的 配置 参数 ， 然 后 申请 并 
填充 到 struct scsi_disk 表 格 中 ， 如 图 7-196 左 侧 所 示 。 

可 能 有 个 疑惑 在 于 ， 为 什么 要 为 一 个 SAS 硬 盘 
准备 这 么 多 份 描述 表格 ? 这 是 因为 其 层次 太 多 ，SAS 
硬盘 首先 是 SAS 网 络 中 的 一 个 SAS 设 备 ， 同 时 也 是 一 
个 SSP Tgt， 它 还 是 一 个 SCSI 设 备 。SCSI 设 备 种 类 繁 
多 ， 它 属于 哪 种 呢 ? 它 同时 是 一 个 SCSI 硬 盘 设 备 。 就 
像 同一 个 人 具有 多 种 角色 ， 比 如 冬瓜 哥 同时 是 一 个 儿 
子 、 丈 夫 和 父亲 ， 也 是 一 个 作者 、 同 事 、 男 人 。 每 一 
种 角色 ， 都 需要 一 份 表 格 来 描述 其 在 该 角色 之 下 的 各 
种 参数 和 属性 。 


struct sesi_disk { 
struct sest driver "driver: 
struct sest device "device; 
struct device dev: 


/* always 854 тепрїате *, 


#ifdef CONFIG_BLK_DEV_Z 
unstgned int 
unstgned int 
unstgned int 
unstgned long 
unstgned tnt 
unstgned int 
unstgned tnt 

sendif 


zone_shift; 
*zones_wlock; 

zones _opttmal_open; 
zones _optinal_nonseq; 
zones _nax_open; 


atonic_t openers; 
зеског е capacity; * size in logical blocks *, 
u32 тах _xfer_blocks; 
u32 opt_xfer_blocks; 
u32 nax_ms_blocks 
u32 nax_unnap_blocks; 
u32 unnap_granulartty 
u32 unnap_altgnnent: 
32 
unstgned int phystcal_block_stze; 
unsigned int 。 max_medtun_access_tineouts; 
unsigned int medtun_access_ttned_out; 
us medta _present; 
u8 write_prot: 
us protectton_type: /* Data Integrity Field * 
us provtstontng_node; 
u8 zeroing_node. 
unsigned 
unsigned 
signed 
nstgned 
nstgned 
signed 
unstgned 
unsigned 
nsigned 
nstgned 
nsigned 
unsigned 
unsigned 
nsigned 
nstgned 
nstgned 
unstgned urswrz : 1, 
unstgned gnore_nedtun_access_errors : 1; 


#78 ЕРО НИ 


你 在 家 里 陪 孩 子 的 时 候 ， 你 是 一 个 父亲 ， 要 贴 
上 父亲 的 标签 和 行为 准则 。 当 你 进入 社会 ， 你 就 是 一 
个 社会 人 ， 所 有 的 社会 人 遵循 社会 公 则 ， 不 管 你 是 男 
人 还 是 女人 ， 是 丈夫 还 是 父亲 。 比 如 在 某 公 共 窗口 办 
事 ， 你 不 能 说 : “我 是 一 个 爸爸 ! ”你 需要 说 : “我 
的 身份 证 号 是 ……” 这 些 形形色色 的 登记 表 ， 就 是 你 
与 社会 各 个 模块 接触 时 所 使 用 的 说 明 书 。 

在 操作 系统 中 ， 比 如 Linux， 也 有 这 样 一 个 用 于 
约束 所 有 块 设备 的 社会 ， 其 被 称 为 通用 块 层 〈General 
Block Layer) 。 这 个 模块 向 上 层 〈 比 如 文件 系统 层 ) 
提供 统一 的 IO 接口 ， 比 如 submit_bio0) 函 数 ， 它 本 身 
又 可 以 对 底层 的 硬盘 设备 做 各 种 附加 处 理 ， 比 如 实现 
多 个 盘 的 数据 镜像 、 远 程 数 据 复制 、 软 Raid 功 能 、 多 
路 径 功 能 等 ， 以 及 提供 IO Scheduler 调 度 器 对 多 线程 发 
送 的 给 同一 个 盘 的 IO 请 求 做 QoS 处 理 等 。 其 向 下 层 则 为 
不 同 种 类 的 块 设备 提供 统一 的 接口 ， 接 口 形式 就 是 规 
定 一 系列 表格 (struct gendisk、struct block_device 和 struct 
request_queue 等 ) ， 让 对 应 块 设备 的 驱动 程序 来 填写 。 

块 层 之 所 以 需要 再 填 一 个 gendisk 表 ， 其 原因 就 
是 因为 块 层 不 想 去 关注 带 有 scsi 字 样 的 任何 表格 。 比 
如 ， 你 去 某 公 共事 业 窗 口 办 理 业务 ， 根 本 用 不 着 告 
诉 对 方 “ 你 好 ， 我 是 乘 107 路 公交 过 来 的 ! СЕМ 
过 SAS 通 道 被 认 到 的 ) ”或 者 “告诉 你 ， 我 会 说 英 
文 哟 〈 底 层 是 用 SCSI 指 令 通信 ) ”， 否 则 人 家 会 认 


Struct 


#ifdef 


endif 


}; 


int major. 
Ant ftrst_mtnor; 
Ant minors: 


char Ф\зк_лате[015К. МАМЕ ИЕН]; /* 
char *("devnode)(struct gendisk "gd, unode_t node); 


unsigned int 
unsigned int async_events: 


struct disk_part_tbl _гем *part_tbl; 
struct hd_struct part; 

const struct block_device_operations “fops; 
struct "queue; 

void "private_data. 


int flags: 
struct kobject "slave_dtr; 


struct tiner_rand_state "randon; 


im 
struct badblocks "bb; 


图 7-196 ѕігисі scsi_disk 和 struct gendisk 结 构 体 


50 大话 计算 机 一 一 计算 机 系统 底层 架构 原理 极限 剖析 


为 你 脑袋 有 问题 。 要 对 块 层 隐 藏 掉 更 多 底层 细节 ， 
而 只 暴露 “硬盘 ”的 更 通用 的 本 质 属性 。 也 就 是 把 
struct gendisk 信 息 表 拿 出 来 ， 不 管 是 scsi_disk、ide_ 
disk、usb_disk， 还 是 其 他 不 管用 什么 链 路 通道 连接 的 
硬盘 ， 甚 至 由 RAM 虚 拟 出 来 的 ram_ disk， 它 们 都 是 硬 
盘 ， 所 以 称 为 gendisk (Generic Disk) 。 不 管 什么 类 
型 的 硬盘 ， 通 过 什么 链 路 通道 被 识别 到 ， 其 设备 驱动 
程序 都 会 向 块 层 申请 并 填充 一 个 gendisk 表 来 表明 自己 
作为 “硬盘 ”这 个 角色 的 基本 属性 。 

同 理 ，SCSI 协 议 栈 其 实 也 不 想 去 看 与 SAS 有 关 
的 东西 ， 所 以 前 文 介绍 过 的 scsi_device 表 中 并 没有 与 
SAS 相 关 的 条 目 。 同 理 ，SCSI 设 备 驱动 加 载 以 后 ， 会 
填 好 scsi_disk 表 ， 表 中 则 更 是 隐 去 了 与 scsi_device 底 
层 相 关 的 条 目 ， 而 更 加 注重 “能 用 SCSI 协 议 访问 的 
disk” 的 本 质 ， 主 语 变 成 了 disk，scsi 变 成 了 修饰 词 。 
M struct scsi_disk 中 的 条 目 也 可 以 看 出 这 一 点 ， 比 如 其 
中 的 max_xfer_ blocks. physical block _ size 等 字段 ， 这 
些 与 SCSI 总 线 Channel/Target/Lun 等 毫 无 关系 。 所 以 ， 
scsi_device、scsi_disk 以 及 gendisk 描 述 了 同一 事物 作 
为 不 同 角色 时 候 所 暴露 出 来 的 不 同属 性 。 


很 多 表 项 是 宛 余 的 ， 有 时 候 在 多 张 表 里 会 出 现 
同样 的 表 项 ， 或 者 某 张 表 中 的 某 个 项 目 其 实 就 是 另 
一 张 表 的 指针 。 这 样 做 纯粹 是 为 了 方便 。 这 就 像 你 
去 办 事 机 构 填 表 ， 办 理 一 件 事 务 过 程 中 使 用 的 多 个 
表 可 能 都 会 让 你 填 身份 证 号 一 样 。 


图 7-196 右 侧 所 示 为 gendisk 表 的 结构 。 其 中 比较 
关键 的 表 项 是 struct block device operations *fops， 
该 项 保存 的 是 一 个 指向 名 为 fops 的 block_device_ 
operations 形 式 的 结构 体 的 指针 ， 是 一 个 二 级 结构 体 。 
还 有 struct request_queue *queue， 其 也 是 一 个 指针 ， 
指向 的 是 名 为 queue 的 request_queue 形 式 的 结构 体 ， 也 
是 gendisk 结 构 体 包含 的 二 级 结构 体 。 

其 中 struct block_device_operations 结 构 如 图 7-197 


struct block_device operations { 


所 示 。SCSI 硬 盘 设备 驱动 会 向 其 中 填 入 用 于 操作 这 块 
硬盘 的 具体 函数 指针 ， 供 上 层 调 用 。 

图 7-198 和 图 7-199 所 示 为 request_queue 结 构 
体 。 该 结构 体 描述 的 是 设备 的 请 求 队列 以 及 处 理 队 
列 中 IO 请 求 的 相关 函数 和 参数 的 一 个 汇总 表 。 

request_queue 结 构 体 中 比较 关键 的 几 个 项 目 名 称 
是 *make request fn, *ргер rq fn, *request fn. W£ 
驱动 需要 向 这 三 个 项 目 中 填 入 自己 实现 的 对 应 函数 ， 
如 果 不 填 入 ， 则 会 使 用 默认 的 函数 。make_request_ 
血 对 应 函数 的 作用 是 将 上 层 下 发 的 bio 请 求 进行 合并 
等 处 理 ， 之 后 将 bio 转 换 为 request (用 struct request 结 
构 体 来 描述 ， 如 图 7-200 所 示 ) 。prep_rq_fn 对 应 函 
数 的 作用 则 是 将 request 转 换 为 标准 的 SCSI 命 令 CDB 
(Command Descriptor Block， 使 用 struct scsi cmnd 
描述 ， 见 图 7-201) ，request_fn 对 应 函数 (比如 scsi_ 
request MO) 的 作用 则 是 将 准备 好 的 标准 SCSI Request 
下 发 给 下 游 的 /O Handler， 最 终 到 达 SAS НВА Host 
Driver 注 册 的 queuecommand 函 数 中 ， 下 发 给 HBA。 

填 的 表 够 多 了 吧 ? 抽象 的 层次 够 多 了 吧 ? 其 
实 还 没有 最 终 抽 象 完 毕 。 通 用 块 层 会 对 所 有 的 块 设 
备 ， 不 管 是 gendisk， 还 是 cdrom、dvdrom (都 属于 块 
设备 ) ， 做 最 后 一 次 抽象 为 块 设备 ， 用 struct block_ 
device 来 描述 ， 如 图 7-202 左 侧 所 示 。 块 设备 可 以 存在 
分 区 ， 用 struct hd_struct 表 示 ， 如 图 7-202 左 侧 所 示 。 

上 层 下 发 的 bio 请 求 发 给 块 层 之 后 ， 块 层 首先 要 查 
询 的 就 是 struct block_device 这 张 表 ， 然 后 从 这 张 表 中 
对 应 项 目 顺 茧 摸 瓜 ， 一 直 找 到 与 该 块 设备 相关 的 所 有 
的 VO Handler 函 数 入 口 ， 当 然 ， 这 些 入 口 都 是 在 设备 
被 发 现 之 后 由 各 个 模块 填充 好 的 。 

struct block_deivce 他 中 有 一 项 叫 作 struct inode, 
这 一 项 记录 的 是 该 块 设备 的 设备 符号 ， 比 如 /dev/ 
sda， 该 符号 都 是 上 述 各 个 驱动 在 加 载 的 时 候 ， 调 用 
相关 的 协议 栈 函 数 生成 的 。 每 个 设备 必须 对 应 一 个 符 
号 ， 应 用 程序 在 访问 设备 的 时 候 ， 代 码 中 会 将 设备 符 
号 作为 一 个 参数 放 入 。 图 7-179 中 的 VFS 层 起 到 一 个 
总 调度 员 的 作用 ， 该 层 根 据 应 用 层 传 入 的 设备 符号 参 


int (*open) (struct block_device *, fmode_t); 
void (*release) (struct gendisk *, fmode_t); 
int (*rw_page)(struct block device *, sector t, struct раде *, bool); 
int (*ioctl) (struct block_device +, fmode_t, unsigned, unsigned long); 
int (*compat_ioctl) (struct block_device *, fmode_t, unsigned, unsigned long); 
unsigned int (*check_events) (struct gendisk *disk, 
unsigned int clearing); 


/* ->nedia_changed() is DEPRECATED, use 


>check_events() instead */ 


int (*media_changed) (struct gendisk *); 

void (*unlock_native_capacity) (struct gendisk =); 

int (*revalidate_disk) (struct gendisk *); 

int (*getgeo)(struct block device *, struct hd_geometry *); 

/* this callback is with swap_lock and sometimes page table lock held */ 
void (*swap_slot_free_notify) (struct block_device =, unsigned long); 


struct module *owner; 
const struct pr_ops *pr_ops; 


图 7-197 struct block device орегачоп5# #4% 
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数 ， 找 到 对 应 该 设备 的 struct 表 ， 从 中 查 出 应 该 调用 什 
么 函数 来 响应 应 用 程序 的 MO 请 求 。 就 这 样 ， 协 议 栈 
通过 一 层 层 记录 表 来 按 图 索 台 ， 调 用 相应 的 函数 处 理 
IO 请 求 。 

上 文中 仅仅 介绍 了 一 些 关键 的 表格 ， 而 这 些 表格 
具体 由 哪个 函数 初始 化 、 填 充 ，LO 请 求 是 怎么 一 步 
步 根据 这 些 表 格 中 的 信息 被 下 发 到 HBA， 请 大 家 自行 
学 习 了 解 。 下 面 我 们 介绍 ， 当 SAS 网 络 初始 化 完成 ， 
HBA 拿 到 上 层 下 发 的 IO 请 求 之 后 如 何 把 请 求 发 送 给 
SAS 目 标 设备 。 


7.4.3.7 SAS 网络 的 数据 传输 方式 


只 是 链 路 初始 化 和 网 络 初始 化 设备 枚 举 就 复杂 
得 让 人 感觉 头晕 ， 而 且 上 文 也 只 介绍 了 一 个 大 框架 ， 
还 有 一 些 细 枝 末节 的 内 容 更 加 复杂 。 要 知道 SAS 标 准 
规范 合 起 来 可 是 有 一 千 多 页 。 相 信 有 了 这 个 大 框架 和 
全 局 观 ， 有 兴趣 继续 钻研 的 读者 后 续 应 该 可 以 顺畅 不 
少 ， 冬 瓜 哥 就 不 奉 陪 了 。 我 们 继续 进入 下 一 步 ， 用 
SAS 网 络 传递 正 儿 八 经 的 数据 。 说 道 正 儿 八 经 ， 那 意 
思 是 说 Open 请 求 、SMP 请 求 都 不 正经 ? 也 不 是 ， 其 实 
SMP 已 经 是 正经 的 VO 请 求 了 。 

我 们 现在 来 看 看 上 层 对 SAS 硬 盘 的 数据 块 读 写 过 
程 。 读 数据 块 ， 必 定 要 与 SAS Tgt 上 的 SSP Таб (а 
不 过 ，HBA 在 从 Host 主 存 拿 到 IO 请 求 Descriptor 后 ， 


会 分 析 其 中 的 命令 以 及 目标 设备 地 址 ， 然 后 自动 向 目 
标 SAS 设 备 发 起 Open 操 作 ， 连 接 成 功 后 ， 开 始 向 对 方 
发 送 SSP 类 型 的 SAS 帧 。 接 下 来 要 介绍 的 内 容 就 从 此 
处 开始 。 

HBA 从 Host 端 拿 到 的 IO Descriptor 中 除了 包含 
SCSI 指 令 CDB 之 外 ， 还 包含 要 访问 的 SCSI 设 备 的 C/T/ 
LID、 数 据 在 Host RAM 中 的 位 置信 息 〈 比 如 用 SGL 描 
Ж) 以 及 其 他 参数 。 而 HBA 的 固件 (或 者 驱动 程序 ， 
看 具体 设计 ) 会 将 SCSI 设 备 的 C/T/L ID 翻 译 成 SAS 地 
址 ， 然 后 向 对 应 地 址 发 起 Open。 之 后 ，HBA 固 件 会 从 
HostRAM 中 取 回 数据 〈 假 设 当前 IO 为 SCSI 写 入 操作 ) 
放 入 内 部 缓冲 ， 同 时 将 SCSI 命 令 CDB 封 装 到 SAS SSP 帧 
中 ， 在 刚才 建立 的 SSP 连 接 上 发 出 给 SAS 目 标 设备 。 然 
而 ，SSP 规 定 了 一 些 固定 的 帧 类 型 和 交互 方式 。 

图 7-203 所 示 为 SSP 的 5 种 常用 的 帧 类 型 ， 分 别 为 
封装 有 SCSI 命 令 的 SSP Command 帧 、 封 装 有 返回 数 
据 的 SSP Data 帧 、 用 于 Tgt 端 提示 Init 端 请 发 送 多 少数 
据 过 来 的 SSP XFER_RDY 帧 、 针 对 不 带 数 据 命令 与 
带 数据 命令 交互 结束 之 后 发 送 的 SSP Response 帧 ， 以 
及 用 于 任务 管理 〈 比 如 取消 IO) 的 SSP Task 帧 。 每 
一 种 类 型 的 帧 均 携带 有 一 个 信息 单元 (Information 
Unit, IU) 字段 ， 整 个 IU 字 段 就 是 SSP 帧 的 Payload 
部 分 。 所 以 ，IU 相 应 也 有 5 种 不 同类 型 ， 如 图 7-203 
右 侧 所 示 。 


SSP frame format 
вуюви | 7 g 5 4 3 2 1 ° ] 
° FRAME TYPE 
1 (MSB) 
s= HASHED DESTINATION SAS ADDRESS 
3 (38) 
4 Reserved 
5 (MSB) 
= HASHED SOURCE ЗАЗ ADDRESS | 
T 《LSB) 
8 Reserved | 
9 Reserved 
RETRY CHANGING 
10 Reserved TLR CONTROL DATA | ветвднзмт | DATA 
FRAMES POINTER 
加 Reserved NUMBER OF FILL BYTES 
12 Reserved 
13 
= Reserved 
ы Table 207 — Frame TYPE field 
16 58) 
ш INMATOR PORT TRANSFER TAG —— [туре otintormation Information 
17 (58) Собе | Nameotframe Originator unit size 
unit Fe 
18 | (MSB) Data information 
15 а слона — sa | DATA frame (ie. | (е, write Data | ssp initiator port or 
Oh | те DATA trame or | infomation шпі ог | S серыш | 1191024 
20 | (MSB) read DATA кате) | read Data 
== DATA OFFSET | Самоа 
23 @зв) || оба | XFER_ROYfame | Transfer Ready | SSP target port 12 
| Command 
ы НЕ Фп | COMMAND trame | ү, unit | SSP initiatorport | 2810280 
т от | ВЕЗРОМЗЕ Кате | үчин | SSPtargetpor | 2410 1024 
Fill bytes, И needed Task Management 
16h TASK кате  |Function information| SSP initiator port 28 
n-3 | (MsB) unit 
== oc —— —— ||FontoFFh| Vendor specific 
n {LSB) All others Reserved 


图 7-203 ”SSP 的 5 种 帧 类 型 


图 7-204 所 示 为 SSP 的 4 种 常用 的 交互 方式 : 任务 
管理 交互 方式 、 不 带 数据 的 SCSI 命 令 交 互 方式 、 带 数 
据 的 SCSI 读 (Data n) 交互 方式 ， 以 及 带 数据 的 SCSI 
9 (Data Ош) 交互 方式 。 

其 中 ， 任 务 管理 交互 方式 和 不 带 数 据 的 SCSI 命 令 
交互 方式 各 自 只 有 一 轮 交 互 ，Imit 端 发 送 命令 ，Tgt 端 
返回 响应 ， 各 自 对 应 一 个 SSP 帧 。 典 型 的 不 带 数据 的 
SCSI 命 令 比 如 SCSI Test Unit Ready 命 令 ，Tgt 端 只 需要 
返回 一 个 状态 信息 即 可 。 

对 于 带 数 据 的 SCSI 写 命令 场景 ， Init 端 首先 发 
出 一 个 封装 有 SCSI 写 命令 的 SSP Command 帧 ，Tgt 端 
在 其 内 部 准备 好 一 定 长 度 〈 长 度 多 少 完全 由 Tgt 端 决 
定 ) 的 接收 缓冲 ， 然 后 将 期 望 接收 的 数据 的 起 始 肩 区 
号 和 扇 区 长 度 放置 到 XFER_RDY 帧 中 返回 给 Init 端 ， 
Init 端 将 对 应 数据 封装 到 SSP Data 帧 中 发 送 给 Tgt 端 。 
由 于 SSP Data 帧 最 大 可 携带 IKB 的 Data IU， 所 以 ， 如 
果 Tgt 端 在 XFER_RDY 中 向 Init 端 通告 发 送 大 于 1KB 的 
数据 ， 那 么 Init 端 就 需要 连续 不 间断 发 送 多 个 SSP Data 
帧 给 Tgt 端 。Tgt 端 收 到 数据 之 后 ， 择 时 再 准备 好 新 的 缓 
冲 区 ， 然 后 将 XFER_RDY 帧 中 的 数据 起 始 地 址 字段 的 
值 加 上 上 一 次 发 送 的 长 度 ， 对 长 度 字 段 赋 以 本 次 新 空 
出 的 缓冲 区 长 度 ， 将 该 XFER_RDY 帧 返回 给 Init 端 。 重 
复 上 述 过 程 ， 直 到 数据 被 发 送 完毕 为 止 〈 本 次 要 发 
送 多 少数 据 一 开始 在 SSP Command 帧 的 SCSI 命 令 IU 
中 就 已 经 给 出 了 ) 。 当 所 有 数据 发 送 完毕 后 ，Tgt 最 后 
返回 一 个 SSP Response 帧 总 结 报告 本 轮 交 互 的 状态 。 

对 于 带 数 据 的 SCSI 读 命令 场景 ，Init 向 Tgt 端 发 送 
Command 帧 后 ，Tgt 端 择 时 将 本 次 要 读 的 数据 封装 在 
一 个 或 者 多 个 〈 看 数据 量 多 少 ) SSP Data 帧 中 ， 连 续 
不 断 〈 指 中 途 无 其 他 帧 乱入 ， 并 不 是 时 间 上 的 连续 


SSP initiator port SSP target port 


— ASK frame 一 一 一 一 全 
(INITIATOR PORT TRANSFER TAG = 
command identifier) 
4— RESPONSE frame—— 
INITIATOR PORT TRANSFER TAG = 
command identifer) time 


time У 


SSP initiator port 


:ОММАМО fame—— 
(тилек Pont aaraa д 
тапа identfier) | | 
aR RDY 
| (мтатояроят mansrer Tac = command 
identifier, TARGET PORT TRANSFER TAG = X) 


P initiator 
port repies lo port sends 
each XFER_RDY frames and 
XFER RDY -i Е ng 
= = DATA frames until ай write 
with one or (INITIATOR PORT TRANSFER TAG = command ку 


тоге write identifier, TARGET PORT TRANSFER TAG = X) 
DATA frames U : 


878 ЕОНИ ИЕ 


EJ 


返回 给 Imit 端 。 当 所 有 数据 发 送 完毕 后 ，Tgt 最 后 返 
一 个 SSP Response 帧 总 结 报告 本 轮 交 互 的 状态 。 

有 个 疑问 ， 为 什么 对 于 SCSI 读 场景 ，Init 端 不 用 
XFER_RDY 帧 向 Tgt 端 请 求 数据 呢 ? 因为 SAS 协 议 被 
设计 为 默认 Init 端 永远 拥有 足够 的 缓冲 区 ， 而 默认 Tgt 
端的 处 理 能 力 有 限 、 缓 冲 区 资源 有 限 ， 需 要 不 断 处 
理 、 回 收 、 重 利用 。 所 以 这 里 才 会 有 XFER_RDY 帧 
的 存在 。 当 然 ， 如 果 Tgt 端 的 缓冲 区 真 的 足够 的 话 ， 
Tgt 端 完全 可 以 在 第 一 个 XFER_RDY 帧 里 直接 把 Data 
Offset 设 置 为 全 0， 然 后 将 长 度 设 置 为 本 次 SCSI 写 命 
令 中 给 出 的 数据 量 总 长 度 。 这 样 ，Init 端 会 直接 不 断 
发 送 SSP Data 帧 直到 所 有 数据 发 送 完毕 为 止 ， 期 间 Tgt 
端 不 会 发 送 额 外 的 XFER_RDY 帧 了 ， 这 会 让 链 路 带宽 
被 利用 得 更 加 有 效 。 

这 种 交互 方式 可 以 让 Tgt 端 的 设计 变 得 更 加 简 
单 。 相 对 来 讲 ，PCIE 和 USB 体 系 中 ， 任 何 一 方 都 可 以 
不 经 对 方 同意 擅自 发 送 数据 ， 而 对 方 也 必须 做 好 在 任何 
时 候 都 能 够 接收 突然 到 来 的 数据 的 准备 ， 包 括 缓冲 区 等 
资源 必须 足够 宽裕 ， 这 也 无 形 中 增加 了 设计 成 本 。 

了 解 了 基本 的 交互 方式 之 后 ， 再 来 细 究 一 下 SSP 
帧 中 的 一 些 字段 的 具体 作用 。 注 意 ， 并 不 是 5 种 类 型 
的 SSP 帧 都 会 用 到 所 有 字段 ， 有 些 字段 只 给 特定 种 类 
的 帧 使 用 。 

Frame Type 字段 。 该 字段 给 出 了 不 同 的 帧 类 型 
码 ， 对 所 有 SSP 帧 都 有 效 。 

Hashed Destination/Source SAS Address 字 段 。 该 
字段 给 出 了 该 帧 要 发 向 的 SAS 目 标 设备 的 SAS 地 址 。 
按理 说 ， 既 然 在 发 送 SSP 帧 之 前 ，SSP 连 接 已 经 与 目 
标 SAS 地 址 建立 起 来 了 ，SSP 帧 中 可 以 不 携带 任何 地 
址 信息 ， 但 是 有 些 Tgt 端 设备 保险 起 见 需 要 检查 每 个 


SSP initiator port SSP target port 


—————СОММАМО trame—a<x— v— 
(INITIATOR PORT TRANSFER TAG = 
command identifier) 
4————НЕ$РОМЗЕ frame 一 一 一 一 
(INITIATOR PORT TRANSFER TAG = 
command identifier) 


SSP initiator port 


time 


SSP target port 


OMMAND {тат 
(INITIATOR PORT TRANSFER TAG = 
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<—— —Aead DATA frami 


(INITIATOR PORT TRANSFER TAG = 
command identifier) 


SSP target port 
sends read DATA 
frames until all read 
data has been 
transferred 


< RESPONSE frame- 


(INITIATOR PORT TRANSFER TAG = 
command identifier) 


time time 


图 7-204 SSP 的 4 种 典型 交互 方式 


有 大话 计 算 机 一 一 计算 机 系统 底层 架构 原理 极限 剖析 


帧 的 SAS 地 址 是 不 是 真 的 与 自己 匹配 ， 所 以 最 终 还 是 
携带 了 SAS 地 址 。 但 是 携带 64 位 太 浪费 ， 最 终 只 携带 
一 个 64 位 散 列 成 24 位 的 值 ，Tgt 端 可 以 将 自己 的 SAS 地 
址 也 散 列 成 24 位 并 与 接收 到 的 SSP 帧 中 的 该 字段 做 比 
对 。 不 过 ， 大 部 分 Tgt 端 设备 根本 忽略 该 字段 。 该 字 
段 对 所 有 SSP 帧 都 有 效 。 

TLR Control (Transport Layer Retry) 字段 。 还 
记得 PCIE 链 路 层 的 Retry Buffer 功 能 吗 ? SAS 也 有 类 
似 功 能 ， 被 称 为 TLR， 只 不 过 SAS 认 为 这 个 功能 是 传 
输 层 的 功能 ， 不 过 这 都 不 重要 ， 因 为 本 来 不 同 协 议 
体系 对 每 一 层 的 称谓 就 有 些许 差别 。 该 字段 仅 对 SSP 
Command 类 型 帧 有 效 ， 用 于 表明 双方 是 否 支持 TLR， 以 
便 让 双方 电路 运行 在 匹配 的 模式 上 ， 如 图 7-205 所 示 。 

Retry Data Frames 字 段 。 该 字段 与 TLR Control 
段 配合 一 起 使 用 。 

Retransmit 字 段 。 该 字段 被 设置 为 1 则 表示 该 帧 为 
Retry 帧 ， 暗 示 上 一 次 传输 时 该 帧 在 接收 方 发 生 了 错误 
( 收 到 了 接收 方 的 NAK 消 息 ) 。 

Changing Data Pointer 字 段 。 该 字段 被 置 为 1 则 表 
示 该 帧 为 一 个 Retry 的 SSP Data 帧 ， 同 时 表示 该 帧 的 
Data Offset 字 段 可 能 并 不 与 上 一 帧 接续 。 

Number of Fill Bytes 字 段 。 与 PCIE 相 同 ，SAS 也 
要 求 所 有 帧 中 的 数据 必须 以 双 字 САР) 为 单位 ， 
这 是 由 接收 端的 数据 寄存 器 宽度 决定 的 ， 以 确保 每 
次 都 与 寄存 器 位 宽 对 齐 ， 可 以 节省 电路 的 复杂 度 。 但 
是 对 于 Data 和 Response 类 型 的 SSP 帧 ，Tsgt 端 有 可 能 返回 
任意 长 度 〈 精 确 到 单字 节 ) 的 数据 ， 可 能 不 能 整除 4， 
所 以 ， 必 须 在 尾部 填充 相应 的 1、2 或 者 3 字 节 的 无 效 数 
据 。 这 个 字段 就 是 告诉 接收 方 该 帧 最 后 一 个 双 字 中 有 几 
个 字 节 的 填充 数据 ， 从 而 让 接收 方 接收 之 后 丢弃 它们 。 

Initiator/Target Port Transfer Tag (IPTT/TPTT) 
字段 。 该 字段 用 于 双方 区 分 不 同 的 命令 一 响应 会 话 ， 


因为 同一 个 连接 可 以 承载 多 个 会 话 CTransaction) o 
Init 端 Open 了 连接 之 后 ， 可 以 批量 向 Tgt 端 发 送 多 个 
SSP Command 帧 ， 每 个 Command 帧 的 IPTT 必 须 不 同 ， 
否则 Init 端 就 无 法 区 分 Tgt 返 回 的 帧 到 底 是 在 响应 哪个 
Command。IPTT 的 取 值 一 般 为 Init 端 用 于 存储 本 轮 交 
互 所 有 数据 所 存储 的 缓冲 区 指针 ， 这 样 ，Init 端 收 到 
对 应 Tag 的 数据 之 后 就 可 以 直接 根据 这 个 值 到 缓冲 区 
内 读 出 或 者 写 入 对 应 数据 ， 加 快 了 数据 处 理 速度 。 按 
理 说 ，Init 和 Tgt 双 方 只 需要 用 统一 的 Tag 就 可 以 标识 唯 
一 一 个 会 话 ， 但 是 ，Init 端 向 Tgt 端 写 入 数据 时 ，SSP 
帧 中 的 IPTT 就 无 法 被 Tgt 端 用 于 快速 获知 本 次 数据 要 
写 入 的 Tgt 端 缓冲 区 的 位 置 。 这 样 Tgt 就 需要 将 IPTT 翻 
译 成 本 地 的 指针 ， 增 加 了 处 理 开销 ， 所 以 SSP 帧 中 又 
增加 了 一 个 TPTT 与 IPTT 配 套 ， 用 来 让 Tgt 端 快速 匹配 
其 内 部 缓冲 区 位 置 。 

图 7-206 为 IPTT/TPTT 的 作用 原理 示意 图 。 如 图 右 
侧 所 示 ，Tgt 端 允许 在 每 个 XFER_RDY 帧 中 改变 自己 
的 TPTT， 因 为 Tgt 端 的 缓冲 区 可 能 比较 紧张 ， 需 要 来 
回 见缝插针 ， 可 能 会 频繁 更 换 ， 所 以 Init 端 就 需要 在 
每 次 接收 到 XFER_RDY 帧 时 将 其 中 的 TPTT 字 段 保存 
下 来 ， 后 续 发 送 的 数据 中 附 上 该 Tag， 直 到 下 次 Tgt 再 
次 改变 Tag 为 止 。 

Data Offset 字 段 。 还 记得 PCIE 链 路 层 的 Sequence 
Number 么 ?SAS 中 的 这 个 概念 就 是 这 个 字段 了 。 该 字段 
仅 对 SSP Data 帧 有 效 。 每 次 传送 一 定量 的 数据 之 后 ， 就 
将 该 值 加 上 上 次 传送 的 数据 量 ， 这 样 双方 就 知道 本 次 的 
数据 发 送 /接收 到 哪里 了 、 还 剩 多 少 、 有 没有 丢失 等 。 

Information Unit 字 段 。IU 是 SSP 帧 的 有 效 载荷 和 
包 衷 物 ， 也 是 最 关键 的 信息 载体 。SSP 帧 中 前 面 的 字 
段 是 信封 ， 是 给 传输 层 看 的 ， 就 像 是 给 快递 公司 的 快 
递 员 看 的 ， 为 的 是 将 IU 送 达 对 方 。 

先 看 一 下 Command 帧 的 IU， 其 当然 包 训 的 是 


TLR CONTROL field for COMMAND frames 


Code ° | Description 


00b or 
11b 


SSP target port shall use the TRANSPORT LAYER RETRIES bit in the Protocol Specific Logical 
Unit mode раде ( 见 前 文 柜 关内 容 Хо enable or disable transport layer retries for this command as 
[follows if the TRANSPORT LAYER RETRIES bit is set to: 

a) one, then the SSP target port shall set the RETRY DATA FRAMES bit to one in any XFER_RDY 
frames that the SSP target port transmits for this command; or 

b) zero, then the SSP target port shall set the RETRY DATA FRAMES bit to zero in any XFER_RDY 
frames that the SSP target port transmits for this command. 


|The SSP target port may enable transport layer retries for this command. 


If the SSP target port enables transport layer retries, then it shall set the RETRY DATA FRAMES bit to 
01b jone in any XFER_RDY frames that it transmits for this command. 


If the SSP target port does not enable transport layer retries, then it shall set the RETRY DATA 
FRAMES bit to zero in any XFER_RDY frames that it transmits for this command. 


IThe SSP target port shall: 
10b 


command. 


a) disable transport layer retries for this command; and 
b) setthe RETRY DATA FRAMES bit to zero in any XFER_RDY frames that it transmits for this 


| = T the SSP target port receives a non-zero value in the TLR CONTROL field and does not support non-zero 
values in the TLR CONTROL field, then the SSP target port shall reply with a RESPONSE frame with the 
DATAPRES field set to RESPONSE_DATA and the RESPONSE CODE field set to 02h (i.e., INVALID ЕКАМЕ). 


-205 TLR Control 字 段 不 同 编码 的 含义 


SCSI 命 令 了 。SCSI 命 令 分 了 好 几 类 ， 比 如 所 有 SCSI 
设备 都 要 支持 的 SCSI Primary Command (SPC) ， 以 
及 只 有 块 类 型 的 SCSI 设 备 〈 硬 盘 等 ) 需要 额外 支持 的 
SCSI Block Command (SBC) 等 。 不 管 什么 样 的 SCSI 
指令 ，SSP 帧 通 吃 ， 并 没有 再 为 每 类 SCSI 指 令 单独 设 
置 不 同 的 信封 。 SCSI 指 令 被 描述 在 CDB (Command 
Descriptor Block) 中 。 图 7-207 左 侧 所 示 为 Command 
帧 中 包含 的 IU 字 段 的 结构 。 左 下 角 所 示 为 一 条 10 字 节 
长 的 SCSI Read 指 令 CDB。 可 以 看 到 IU 本 身 其 实 又 是 
一 层 小 信封 ， 最 终 的 信纸 才 是 CDB， 被 层 层 包 庄 。 
Command IU 中 的 Logical Unit Number (Lun) + 
段 给 出 了 该 命令 是 发 给 SAS Tgt 中 哪个 Lun 的 。Enable 
First Burst 字 段 如 果 被 设置 为 1， 则 表示 Init 端 可 以 不 必 
等 待 Tgt 端 发 送 XFER_RDY 帧 ， 就 擅自 传送 一 批 长 度 
不 超过 某 固定 长 度 的 数据 给 Tgt 端 〈 突 发 传送 ) ， 该 
机 制 用 于 延迟 比较 大 的 链 路 ， 比 如 通过 以 太 网 +TCP/ 
卫 协 议 栈 访问 远 端的 Tgt 设 备 时 。 每 次 最 大 的 突 发 量 ， 
在 Tgt 设 备 的 Disconnect-Reconnect Моде Page 中 的 First 
Виз! Size 字 段 中 给 出 。Task Attribute 字 段 给 出 了 该 命 
令 的 QoS 优先 级 策略 。 如 图 7-207 右 侧 所 示 ， 常 用 策略 


DATA frame, including 
initiator tag (175) and ТРТТ (7) 


XFER_RDYframe, including 
initiator tag (175) and TPTT (7) 
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有 4 种 ， 每 一 种 策略 的 具体 含义 请 大 家 自行 阅读 ， 篇 
幅 所 限 不 再 解释 。 

Command Priority 字 段 。 当 Task Attribute 字 段 被 设 
置 为 000b 时 ， 该 字段 有 效 ， 其 给 出 了 Init 端 希望 Tgt 端 
用 怎样 的 优先 级 来 处 理 该 命令 。 

Additional CDB Length 字 段 。SCSI 体 系 中 定义 了 
多 种 不 同 长 度 的 CDB， 如 果 16 字 节 的 CDB 不 够 ， 则 需 
要 用 到 该 字段 来 扩充 CDB 字 段 的 长 度 。 

图 7-208 所 示 为 Task Management IU 结 构 及 关键 字 
段 含义 ， 篇 幅 所 限 就 不 多 解释 了 。 

图 7-209 所 示 为 XFER_RDY IU 与 Data IU 的 结构 。 

图 7-210 所 示 为 Response IU 的 结构 及 相关 字段 含 
义 。Datapres (Data Presented) 字段 表示 该 Response 
IU 中 是 否 包 含 Response Data， 右 上 角 为 对 应 编码 表 
示 的 含义 。Status 字 段 给 出 了 该 轮 交 互 的 总 体 的 状态 
码 ， 如 图 7-210 右 侧 所 示 。 如 果 Status 字 段 为 02h， 也 就 
是 Check Condition， 则 表明 执行 出 现 了 一 些 大 大 小 小 
的 问题 或 者 瑕 疯 ， 此 时 该 Response IU 中 会 携带 Sense 
Data 字 段 ， 用 于 存储 更 具体 的 异常 / 瑕 竟 信 息 ， 并 在 
Sense Data Length 字 段 给 出 Sense Data 字 段 的 长 度 。 在 


DATA frame, including 
initiator tag (175) and TPTT (2) 


XFER_RDYframe, including 
initiator tag (175) and TPTT (2) 


XFER_RDYframe, including 


initiator tag (175) and TPTT (7) 
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7 00% | SIMPLE | Thistaskisto be managed according to the SAM rules for sim- 
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ENABLE based on what will give best performance overall. 
| нина карынан 001b | НЕАРОЕ | This task is to be managed according to the ЗАМ rules for a 
r; == QUEUE | head of queue task. This command should become the next 
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12 010b | ORDERED | This task is to be managed according to ће SAM rules foran 
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TsreR LENOTH _ чш 
В (LSB) 101b- RESERVED 
9 CONTROL lllb 


图 7-207 Command IU 的 结构 
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arguments set to the SSP ног port and SSP target port involved in tne connection used to бее he 
TASK кате 
图 7-208 Task Management IU 结 构 及 关键 字段 
XFER_RDY frame - Transfer Ready information unit DATA framo -Data information unit 
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Reserved 


图 7-209 XFER_RDY IU 与 Data IU 的 结构 


DataPres Values 
Value Description | 
Ob | Мо sense or response d: 
оь Response data included - this is sent for every TASK frame and 
in response to errors in the Transport Layer handling of a 
COMMAND frame. 
10b Sense data included - for commands that complete with sense 
RESPONSE trame - Response information unit data to return, such as a CHECK CONDITION status. 
Byte\Bit T g 5 4 3 a 1 I ° lb Reserved - not legal to have both Response data and Sense data 
5 at the same time. RESPONSE frame with this setting will be 
= discarded 
Соттоп Status Codes 
8 
š STATUS OUAUFIER Status Si Descriptt 
10 Reserved DATAPRES 
O0h GOOD Device server successfully completed the task 
м STATUS 
12 02h CHECK Indicates that sense data has been delivered 
= Reserved CONDITION 
ы 08h BUSY Logical Unit is temporarily unable to accept a 
16 (MSB) command. Recommended that the application 
== SENSE DATA LENGTH (n bytes) client try the command again later. 
19 (SB) 
28h | TASKSET | Logical Unit has at least one task in progress and 
20 | (ме) FULL insufficient resources to accept another. 
== RESPONSE DATA LENGTH (m bytes) 
23 sm Response Data Field Response Codes 
24 
= RESPONSE DATA Sinus 
234m Cod Status 
зант 
==“ SENSE DATA (if any) 00h Task Management Function Complete 
23+m+n 
Invalid Fi 
Response Data Field з — 
04h | Task Management Function Not Supported 
Byte\bit | 7 | ы | = * ы [ 2 | > ы 05h | Task Management Function Failed 
002 Reserved 08h | Task Management Function Succeeded 
3 Response Code 09h | Invalid Logical Unit Number 


图 7-210 ResponseIU 结 构 及 相关 字段 含义 


其 他 时 候 ，Init 端 也 可 以 主动 发 送 SCSI Request Sense 
命令 来 向 Tgt 索 要 Sense Data, 


7.4.3.8 SAS 网 络 的 层次 模型 


上 文中 介绍 了 HBA 从 Host 端 拿 到 IO 任务 书 ， 也 
介绍 了 SAS 链 路 上 出 现 的 SSP 帧 的 交互 逻辑 。 本 节 我 们 
就 来 深究 一 下 HBA 内 部 的 层次 细节 ， 从 HBA 拿 到 IO 任 
务 书 ， 一 直到 对 应 的 SSP 帧 出 现在 链 路 上 ， 介 绍 其 间 
的 过 程 是 怎样 的 。 

与 其 他 通信 协议 一 样 ，SAS 体 系 也 是 分 层 的 模 
型 ， 如 图 7-211 所 示 。 最 顶层 依然 是 应 用 层 ， 应 用 层 
涵盖 了 很 多 角色 ， 比 如 最 顶 可 以 到 Host 端 运行 的 用 户 
程序 ， 最 底 可 以 到 SCSI 协 议 栈 ， 以 及 SAS HBA 的 Host 
Driver, Host Driver 负 责 生 成 最 终 的 IO 任务 书 。 


[=] 


图 7-211 SAS 体 系 的 层次 


HBA 从 前 端 PCIE 接 口 拿 到 任务 书 之 后 ， 放 置 到 一 
个 临时 缓冲 区 存储 器 中 。 然 后 由 在 其 内 部 嵌入 式 CPU 
核心 上 运行 着 的 固件 程序 对 收 到 的 任务 书 进行 分 析 ， 
看 看 这 个 IO 请 求 到 底 是 要 做 什么 ， 比 如 是 向 某 个 目 
标 设备 发 送 一 条 SMP 命 令 进行 SAS 网 络 管理 ， 还 是 发 
送 SSP 命 令 读 写 目 标 设备 上 的 数据 。 这 些 信 息 都 被 描 
REVO Descriptor 任 务 书 中 。 

分 析 完 之 后 ， 固 件 会 生成 一 系列 的 内 部 控制 命 
令 ， 发 送 给 位 于 SAS 端 口 硬件 电路 模块 中 的 一 个 首 当 
其 冲 的 子 模块 : SAS 传输 层 。 当 然 ， 固 件 首先 要 判断 
本 次 VO 的 目标 SAS 设 备 位 于 哪个 端口 下 ， 这 个 信息 已 
经 在 SAS 网 络 初始 化 时 得 到 了 。 每 个 端口 可 以 由 多 个 
PHY 组 成 ， 每 个 端口 只 有 一 个 传输 层 控制 模块 ， 位 于 
其 下 方 的 是 一 个 Port Layer 控 制 模块 。 由 于 端口 中 可 以 
有 多 个 PHY， 所 以 每 个 PHY 各 自 有 一 套 自己 的 : 链 路 
层 、PHY Layer 和 物理 层 控制 模块 。 每 个 层次 模块 的 
作用 总 结 如 下 。 

(1) 传输 层 。 

这 一 层 的 功能 就 是 成 帧 和 传输 控制 。 这 一 层 接 
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收 固件 发 过 来 的 控制 命令 ， 比 如 “请 把 位 于 缓冲 区 某 
某 地 址 处 长 度 为 某 某 的 数据 写 入 SAS 地 址 为 某 某 的 目 
标 设备 ，CDB 位 于 缓冲 区 某 某 处 ， 传 输 类 型 为 SSP 类 
型 ， 方 向 为 Data Out”， 这 个 命令 也 会 被 描述 在 一 个 
结构 体 Descriptor 中 并 放 入 缓冲 区 的 Descriptor Queue 
中 。 端 口 电路 中 的 传输 层 模块 会 不 断 从 Descriptor 
Queue 中 取出 命令 执行 ， 并 把 任务 书 中 的 相关 字段 
(比如 CDB》 取 出 ， 加 上 一 些 自己 加 入 的 字段 ， 组 装 
成 标准 的 SAS SSP 帧 ， 然 后 放 入 Port Layer 的 发 送 队列 
中 ， 等 待 Port Layer 取 出 并 发 送 。 然 而 ， 正 如 我 们 在 
上 文中 介绍 的 那些 SSP 帧 的 交互 过 程 一 样 ， 实 际 的 过 
程 中 并 不 是 发 送 一 个 帧 就 高 枕 无 忧 了 ， 还 得 时 刻 关注 
Tgt 端 返回 来 的 XFER-RDY， 分 析 里 面 所 声明 的 本 次 
待 传输 的 数据 长 度 ， 查 看 里 面 的 TPTT 保 存 备用 ， 安 
排 缓冲 区 等 一 系列 动作 ， 这 些 都 需要 传输 层 来 处 理 。 
这 也 是 其 名 称 的 由 来 ， 传 输 控 制 即 对 传输 过 程 中 的 零 
碎 步 又 的 协调 和 控制 。 正 因 如 此 ， 在 实际 产品 中 ， 有 
些 设计 会 采用 一 个 简易 的 CPU 核 心 运行 一 小 段 微 码 来 
处 理 上 述 流程 ， 但 是 也 有 直接 使 用 硬件 逻辑 状态 机 的 
设计 ， 我 们 会 在 7.4.3 节 中 介绍 一 个 实际 产品 中 的 传输 
层 对 应 的 硬件 模块 架构 。 所 有 传输 层 下 发 的 帧 ， 都 要 
放 入 Port Layer 的 发 送 队列 中 。 

(2) Port Layer; 

每 个 SAS 端口 有 一 个 Port Layer 模 组 ， 如 图 7-212 
所 示 。 该 模 组 包含 一 个 Port Layer Overall Control (PL- 
OC) 硬件 状态 机 负责 总 体 控 制 ， 同 时 在 每 个 PHY 模 
块 的 前 端 还 安插 了 Port Layer PHY Manager (PL-PM) 
硬件 状态 机 分 管 对 每 个 PHY 的 对 接 控 制 。PL-OC 模 块 
会 将 传输 层 下 发 的 帧 按照 目标 SAS 地 址 进行 分 类 ， 存 
放 到 独立 的 FIFO 队 列 中 。 当 然 ， 具 体 实现 时 是 用 一 
个 物理 上 的 总 队列 然后 用 链表 的 方式 在 其 中 实现 虚拟 
队列 ， 还 是 真 的 安排 多 个 物理 上 独立 的 队列 ， 完 全 
看 设计 而 定 。PL-OC 会 向 PL-PM 传 送 控制 信号 ， 要 求 
后 者 与 目标 SAS 设 备 Open 一 条 对 应 的 连接 (是 SMP/ 
STP/SSP 中 的 哪 种 得 看 对 应 的 帧 类 型 )。 连 接 建立 之 
后 ，PL-PM 会 从 FIFO 队 列 中 取出 对 应 的 帧 下 发 给 下 层 
的 链 路 层 。 由 于 PL-PM 有 多 份 ，PL-OC 可 以 命令 其 中 
任何 一 个 来 干 活 。 由 于 下 游 可 能 连接 很 多 SAS 设 备 ， 
而 PHY 的 数量 有 限 ， 所 以 连接 请 求 可 能 存在 竞争 。 
PL-OC 模 块 需要 维护 对 应 数量 的 数据 结构 ， 来 追踪 每 
个 PHY 是 否 已 被 某 个 连接 占用 ， 也 就 是 图 中 的 Pending 
Tx Open Slot， 当 有 Slot 空闲 时 ， 新 的 连接 请 求 才 能 
够 被 下 发 ， 否 则 只 能 等 待 。SAS 目 标 方 可 能 会 以 各 种 
理由 拒绝 连接 请 求 〈 链 路 层 会 收 到 对 应 的 原 语 ) ， 此 
时 链 路 层 会 返回 对 应 的 信号 给 PL-PM， 后 者 再 反馈 给 
PL-OC，PL-OC 需 要 进一步 判断 该 怎么 做 ， 比 如 重新 
发 起 连接 请 求 ， 还 是 过 一 段 时 间 重 试 、 报 错 等 。 

PL-OC 与 上 层 的 传输 层 之 间 的 控制 信号 包括 并 
ЖИТ: 传递 帧 、 取 消 传递 、 断 开 连 接 、 接 受 /拒绝 
对 方 的 连接 请 求 、 传 输 状 态 反 馈 〈 成 功 /错误 等 ) 、 


到 大 话 计算 机 一 一 计算 机 系统 底层 架构 原理 极限 剖析 


Pending Tx | | Pending Tx | [Pending Tx 
Frames for Frames for Frames for 
destination | | destination | | destinati 
address A | | address В 


Physical Layer 


Physical Layer 


图 7-212 Port Layer 架 构 示 意图 


HARD_REST PHY 等 。PL-OC 与 下 层 的 链 路 层 传递 
的 控制 信号 包括 : 接受 /拒绝 对 方 的 连接 请 求 、PHY 
Ready〔 底 层 已 完成 初始 化 ) ~ PHY НАВ” ВЕЅТ. 
对 应 模块 收 到 对 应 控制 信号 后 就 得 做 出 对 应 的 反应 ， 
比如 当 PL-OC 模 块 收 到 来 自传 输 层 发 来 的 取消 传递 
信号 之 后 ，PL-OC 就 得 从 对 应 的 队列 中 删除 还 未 发 
出 的 帧 。 如 果 该 帧 已 经 被 下 发 到 了 PL-PM 一 侧 ， 那 
么 PL-OC 就 得 向 PL-PM 模 块 发 送信 号 要 求 取消 传送 该 
帧 ， 而 如 果 此 时 底层 连接 还 未 建立 ， 那 么 PL-PM 模 块 
会 给 下 层 的 链 路 层 发 送 停止 建 连 接 信号 。 如 果 连 接 已 
经 建立 了 ， 则 PL-PM 只 丢弃 一 切 待 发 送 的 帧 。 

Port Layer 还 有 个 工作 要 做 ， 那 就 是 “ 拘 表 ”。 
Port Layer 维 护 着 多 个 定时 器 : 用 于 忍受 Init 和 Tgt 端 连 
接 请 求 超时 的 LT Nexus Lose Timer、 用 于 忍受 连接 请 
求 仲裁 超时 的 Arbitration Wait Timer、 用 于 追踪 总 线 空 
ЖЕН Виз Inactive Timer (到 时 则 PL-OC 会 发 送 连 
接 关闭 请 求 给 下 层 ， 这 个 超时 值 会 在 SAS 目 标 设 备 的 
Disconnect-Reconnect Mode Page 参 数 中 给 出 ，PL-OC 
可 以 按照 这 个 参数 来 设置 该 Timer) ， 以 及 用 于 追踪 
连接 持续 时 间 的 Maximum Connect Time Limit Timer 

(不 管 链 路 有 无 空闲 ， 该 时 间 到 达 则 强行 断 开 连 接 ， 
以 让 其 他 连接 利用 链 路 ， 保 持 公 平 ) 。 
(3) 链 路 层 。 

传输 层 和 Port Layer 主 要 是 负责 管理 协调 ， 而 链 

路 层 干 的 则 是 具体 的 重活 。 比 如 PL-PM 只 是 命令 链 路 


层 与 某 个 SAS 地 址 去 Open 一 个 连接 ， 而 具体 的 仲裁 、 
Open 帧 的 封装 和 发 送 、AIP 等 原 语 的 接收 处 理 ， 都 由 
链 路 层 具体 负责 ，SAS 的 链 路 层 是 整个 SAS 体 系 的 核 
心 。 链 路 层 主要 负责 下 列 具体 工作 : 链 路 初始 化 时 负 
责 发 出 和 接收 Identify Address 帧 将 自己 的 信息 发 送 给 
对 方 以 及 获取 对 方 的 信息 ， 响 应 上 层 的 连接 请 求 向 下 
层 发 出 具体 的 Open Address 帧 并 进行 连接 仲裁 管理 ， 
对 上 层 下 发 的 所 有 帧 计算 并 加 入 CRC 字 段 ， 生 成 并 发 
送 对 应 的 SAS 链 路 原 语 比 如 ACK/NAK， 利 用 RRDY 机 
制 进行 链 路 层 帧 流 控 ， 利 用 ACK/NAK 机 制 进行 传输 
保障 和 错误 恢复 ， 接 收 并 分 析 对 方 发 来 的 原 语 并 判断 
当前 的 链 路 状态 ， 对 发 出 的 数据 进行 加 扰 处 理 ， 以 及 
自动 插入 ALIGN 原 语 进行 速率 匹配 等 。SAS 协 议 中 的 
最 重 和 最 关键 的 任务 都 交 给 了 链 路 层 。 

当然 ， 不 管 什么 通信 协议 ， 链 路 层 要 解决 的 先 
决 问题 都 是 帧 的 定 界 问题 ， 也 就 是 接收 端 电路 如 何 从 
导线 上 的 信号 判断 出 当前 传递 的 是 什么 帧 或 者 原 语 。 
SAS 链 路 上 传递 的 任何 信号 都 是 以 双 字 /4 字 节 为 一 组 
的 ， 每 个 原 语 都 是 4 字 节 ， 任 何 帧 的 长 度 也 都 是 4 字 节 
的 整数 倍 ， 所 以 接收 电路 也 是 按照 双 字 粒度 来 判断 当 
前 传递 的 帧 / 原 语 。 所 有 原 语 都 以 K28.5 字 节 开 始 ， 电 
路 比较 容易 区 分 ， 而 针对 不 同 的 帧 ， 链 路 层 需 要 为 
其 增加 帧 头 和 帧 尾 以 供电 路 区 分 ， 其 中 Identify/Open 
Address 帧 会 被 加 上 SOAF (Start of Address Frame) 
帧 头 和 EOAF (End of Address Frame) 帧 尾 ，SOAF/ 


EOAF 本 身 也 是 原 语 。 而 针对 SSP 和 SMP 帧 ， 链 路 层 会 
加 上 SOF/EOF 帧 头 / 尾 原 语 。 

图 7-213 所 示 为 展示 出 底层 原 语 和 Idle 码 的 Open 过 
程 。 我 们 前 文中 给 出 的 那些 交互 只 是 站 在 高 层 看 到 的 ， 
而 底层 比 你 想象 的 更 加 波涛 测 涌 。 线 路 上 会 充斥 大 量 的 
原 语 和 Idle， 帧 不 过 是 原 语 海洋 中 的 一 叶 扁 舟 罢了 。 


PEN SOAF 
И Кек» idle dwords 
frame | dwords ыы 
EOAF 
idle dwords 
3 АР 
idle dwords 
АР 
= И idle dwords 
— = AIP 


idle dwords 


OPEN_ACCEPT/ 
ОРЕМ ВЕЈЕСТ 


图 7-213 ” 链 路 层 基 本 架构 示意 图 


图 7-214 左 侧 所 示 为 SAS 链 路 层 的 基本 框架 图 。 
其 内 部 有 若干 状态 机 模块 用 于 对 链 路 上 的 帧 、 原 语 进 
行 分 析 然 后 做 出 相应 动作 。 图 中 右 侧 所 示 为 链 路 层 的 
所 有 状态 机 列表 。 

在 SAS Link (SL) Transmitter 模 块 中 保存 了 链 路 
层 原 语 比 如 Identify、ALIGN 等 ，Open Address 帧 也 是 
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在 这 里 生成 的 。 其 输出 三 个 关键 的 控制 信号 ， 控 制 三 
处 关键 的 MUX 选 路 器 。 

Connected MUX。 在 连接 没有 建立 之 前 ， 主 状态 
机 控制 SL_Transmitter 模 块 将 Connected 信 号 置 为 0， 对 
应 的 MUX 会 将 输入 路 径 切换 到 与 SL_Transmitter 相 连 
接 的 专门 传送 Open、Close 等 控制 连接 的 原 语 / 帧 的 通 
路 上 ， 连 接 建立 之 后 ， 切 换 到 与 Port Layer 模 块 相连 接 
的 通路 上 从 而 将 上 层 的 帧 下 发 到 链 路 层 。 

Rate Matching MUX。 如 果 当 前 连接 跨越 的 链 路 
通道 的 速率 有 高 有 低 的 话 ， 那 么 链 路 层 需要 做 速率 适 
配 ， 比 如 前 方 是 低速 链 路 ， 那 么 本 方 的 链 路 层 需要 以 
固定 的 时 间 间 隔 插入 ALIGN 原 语 〈 如 图 7-167 所 示 的 
机 制 ) 。Rate Matching MUX 的 作用 就 是 以 固定 的 间 
隔 不 断 切换 ， 从 而 向 链 路 上 输出 以 对 应 频率 出 现 的 
ALIGN 原 语 。 

Link Reset MUX。 如 果 需 要 Reset 链 路 ， 那 么 需要 
切换 到 SL_Transmitter 输 出 HARD_RESET 原 语 和 之 后 
的 Identify 帧 的 通路 上 。 

如 图 7-215 所 示 ， 链 路 层 的 另外 一 项 工作 是 准备 
Elastic Buffer 以 配合 时 钟 补偿 ， 与 PCIE 的 做 法 完全 
相同 。 关 于 时 钟 频率 差异 补偿 方面 的 背景 原理 我 们 
在 PCIE 部 分 已 经 介绍 过 了 ， 可 以 回顾 一 下 PCIE 体 系 
中 定义 的 COM-SKP-SKP-SKP 有 续集 的 作用 。 而 发 
送 方 的 PHY Layer 的 电路 会 定时 插入 ALIGN 原 语 来 补 
偿 时 钟 差异 ， 这 些 ALIGN 进 入 接收 端的 链 路 层 维护 
的 Elastic Buffer 之 后 ， 如 果 因 为 时 钟 频率 差异 导致 该 
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Buffer 几 近 满 时 ， 接 收 方 可 以 删除 其 中 的 ALIGN 占 位 
从 而 腾 出 空间 接收 新 数据 。Elastic Buffer 的 本 质 是 一 
个 异步 FIFO， 其 输入 端 采用 从 接收 线路 上 提取 出 来 的 
时 钟 频 率 入 队 ， 其 输出 端 按照 接收 方 本 地 的 晶振 产生 
的 频率 出 队 。 线 路 时 钟 与 本 地 时 钟 存在 的 些许 差异 ， 

队列 中 的 填充 物 ALIGN 原 语 来 补偿 。 异 步 FIFO 这 个 


模块 在 本 书 第 1 章 就 已 经 介绍 过 了 ， 当 时 如 果 理 解 起 
来 有 难度 ， 那 么 现在 结合 实践 ， 就 可 以 更 加 深刻 理解 
FIFO 的 重要 性 了 。 


Physical Layer 


Phy Layer 


ли 
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图 7-215 Elastic Buffer 示 意图 


SAS 的 链 路 层 还 做 了 一 件 似乎 有 点 低 效 的 事情 ， 
那 就 是 ， 不 管 是 Init 还 是 Tgt 端 ， 想 要 向 对 方 发 送 任何 
类 型 的 SSP 帧 之 前 ， 都 必须 得 到 对 方 发 送 的 许可 才 可 
以 。80 后 的 朋友 们 可 能 知道 上 世纪 末期 国内 的 情况 ， 
粮食 是 按照 每 家 的 人 口 数量 限量 供应 的 ， 每 月 发 放 固 
定数 量 的 粮 票 ， 买 粮食 不 仅 要 用 钱 ， 还 得 一 并 交 上 对 
应 数额 的 粮 票 。 

如 图 7-216 所 示 ，Init 端 想 要 发 起 一 个 SSP 
Command 帧 ， 封 装 了 一 条 SCSI 写 命令 ， 长 度 为 
4KB 。 但 是 ，Init 端 一 开始 并 不 能 擅自 发 送 这 个 帧 
给 Tgt 端 ， 一 直到 它 接 收 到 Tgt 端 发 送 过 来 的 RRDY 
(Receive Ready) 原 语 为 止 。 一 般 来 讲 ，Open 建 立 
之 后 ，Init 和 Tgt 端 各 自 会 向 对 方 发 送 至 少 一 个 RRDY 
原 语 。RRDY 原 语 的 作用 是 告诉 对 方 “ 我 已 做 好 了 接 
收 一 帧 的 准备 ”。 咽 ? 难道 说 向 对 方 发 送 一 个 RRDY 
原 语 ， 就 证 明 自 己 这 边 能 够 接收 1KB 的 帧 一 个 ? 这 
也 太 抠 门 了 吧 ? 是 的 。 如 果 本 侧 的 接收 帧 缓冲 区 中 
空 出 了 多 个 1KB 的 位 置 ， 那 么 本 方 就 向 对 方 接连 发 
送 对 应 数量 的 RRDY 原 语 ， 相 当 于 向 对 方 派发 一 张 粮 
票 。 对 方 会 准备 一 个 计数 器 ， 每 接收 到 对 应 数量 的 
RRDY 原 语 ， 就 将 计数 器 加 上 对 应 个 数 ， 每 发 送 一 帧 
则 将 计数 器 -1。 所 以 ， 本 质 上 就 是 双方 将 向 对 方 通 
告 对 应 数量 RRDY 原 语 的 方式 作为 流 控 手段 ， 向 对 方 
通告 本 侧 的 帧 缓冲 的 空闲 位 置 。 再 回 到 图 7-216， 一 
开始 双方 各 自发 送 了 一 个 RRDY， 这 样 Init 端 就 可 以 
发 送 SSP Command 帧 给 Tgt 端 了 。 由 于 Tgt 端 刚才 也 
收 到 了 Init 端 发 来 的 RRDY， 所 以 Tgt 端 的 计数 器 值 为 
1， 证 明 可 以 向 对 方 发 送 一 个 帧 。 刚 好 Tgt 端 接收 到 
T SSP Command 帧 ，Tgt 端 处 理 该 帧 ， 分 配 了 2KB 的 
内 部 数据 缓冲 区 ， 所 以 向 Init 端 返回 一 个 SSP XFER 


RDY 帧 ， 并 将 计数 器 -1， 计 数 器 变 为 0，Tgt 端 不 能 
再 向 Init 端 发 送 SSP 帧 。 但 是 Tgt 端 又 向 Init 端 发 送 了 
2 个 RRDY 原 语 ， 因 为 刚才 已 经 准备 好 了 2KB 的 数据 
缓冲 区 ， 那 么 也 需要 准备 相应 容量 的 帧 缓冲 区 ， 所 
以 发 送 了 两 张 票 给 Init 端 。Init 端 则 接连 发 送 了 2 个 
SSP Data 帧 后 ， 自 己 的 计数 器 也 变 为 0 了 ， 没 票 了 。 
但 是 Init 端 知道 Tgt 端 必须 要 再 次 发 送 XFER_RDY 帧 
给 自己 继续 通告 下 一 次 要 传 的 数据 量 ， 所 以 Init 端 腾 
出 一 条 帧 缓冲 ， 并 给 Tgt 端 发 送 一 张 票 。Tgt 端 返回 
一 个 XFER_RDY 帧 和 两 张 票 ，Init 端 继续 返回 2 个 SSP 
Data 帧 和 一 张 票 ， 最 后 一 张 票 用 于 让 Tgt 端 返回 最 后 


的 SSP Response 帧 。 
Initiator Target 
RRDY RRDY 
Command 
(Write 4KB) ER_RDY 
(data length = 2KB) 
RRDY (2x) 
Data Frame (x2) 
RRDY 
XFER_RDY 
(data length = 2KB) 
RRDY (2x) 
Data Frame (x2) 
RRDY 
Response Frame 
time time 


图 7-216 RRDY 原 语 的 带 数 据 的 SCSI 写 命令 交互 过 程 


上 面 的 案例 比较 特殊 ， 好 像 本 方 预先 就 知道 对 方 
需要 几 张 票 一 样 。 其 实 不 是 的 ， 任 何 一 方 都 可 以 腾 出 
任意 数量 的 帧 缓冲 ， 从 而 发 送 任意 数量 的 RRDY 给 对 
方 。 最 终 ， 链 路 上 任何 时 刻 发 送 的 RRDY 的 总 量 一 定 
是 大 于 等 于 所 发 送 的 SSP 帧 的 总 量 的 。 怎 么 样 ? 这 种 
方式 冬瓜 哥 个 人 感觉 还 是 比较 奇 范 ， 属 于 懒 人 做 法 。 
如 果 使 用 流 控 专 业 术 语 ， 粮 票 应 被 称 为 Credit， 也 就 
是 信用 积分 。SAS 是 一 分 一 分 地 发 放 ， 而 诸如 PCIE、 
TCP/IP 等 流 控 机 制 中 ， 积 分 用 一 张 Credit 就 可 以 批量 
发 放 ， 但 是 限于 篇 幅 冬瓜 哥 并 没有 在 PCIE 一 节 中 介绍 
PCIE 的 流 控 机 制 。 在 明白 了 SAS 的 流 控 机 制 之 后 ， 相 
信 再 去 学 习 PCIE 的 流 控 机 制 并 非 难事 ， 这 个 留 给 大 家 
自行 去 探索 吧 。 

为 什么 有 了 XFER_RDY 还 需要 RRDY? 因为 用 
于 接收 SCSI 数 据 的 缓冲 区 ， 与 用 于 接收 SAS 帧 的 组 
冲 区 ， 根 本 就 是 两 个 层面 的 东西 。SAS 相 当 于 快递 公 
司 ， 而 你 相当 于 SSP Tgt 模 块 ， 你 为 了 接收 对 方 的 货 
物 ， 需 要 在 自己 家 里 腾 出 地 方 并 用 XFER_RDY 通 知 
对 方 腾 出 了 多 少 地 方 。 对 方 发 送 的 货物 到 达 你 处 之 
前 ， 先 要 放置 到 快递 公司 的 库房 里 ， 本 方 快递 集散 
点 会 通知 上 一 站 快递 集散 点 本 方 库房 还 能 接收 多 少 
货物 ， 有 多 少 个 空位 就 发 送 多 少 个 RRDY 给 对 方 。 所 
以 ，XFER_RDY 是 端 到 端的 SCSI 数 据 缓冲 的 流 控 机 


制 ，XFER_RDY 帧 是 要 被 路 由 到 目标 SAS 设 备 的 ， 而 
RRDY 则 是 一 条 连接 上 的 器 件 之 间 链 路 层 局 部 范围 内 
针对 帧 缓冲 的 流 控 机 制 (如 图 7-217 所 示 ) ，RRDY 原 
语 不 会 被 路 由 。 

为 何不 能 像 XFER_RDY 那 样 一 次 性 通告 可 用 缓冲 区 
空间 呢 ? 这 就 像 为 何不 能 一 次 发 放 一 张 50 市 斤 的 粮 票 而 
非得 发 放 50 张 1 市 斤 的 粮 票 呢 ?” 其 实 ， 这 是 为 了 电路 设 
计 简 化 考虑 的 。 如 果 在 底层 帧 层面 可 以 发 送 任意 空 闻 组 
冲 区 声明 给 对 方 ， 那 就 要 新 设立 一 个 帧 类 型 ， 其 中 可 以 
携带 更 多 的 信息 ， 那 么 势必 要 设计 解析 该 帧 并 执行 的 电 
路 模块 ， 成 本 就 会 提升 。 但 不 管 怎样 ，SAS 链 路 层 流 控 
的 这 套 玩法 ， 总 体 来 说 还 是 略 显 懒惰 。 


SAS 链 路 是 全 双 工 的 ， 这 意味 着 一 个 PHY 包 含 
了 发 送 端 和 接收 端 两 组 模块 ， 各 自 都 能 以 对 应 速率 
运行 。 但 是 很 不 幸 的 是 ，SAS 是 基于 连接 的 网 络 ， 
每 个 连接 只 能 承载 一 个 方向 的 数据 IJO。 也 就 是 说 ， 
在 同一 个 时 刻 ， 一 个 PHY 上 的 数据 流向 总 是 单 向 
的 ，SAS 并 不 支持 对 一 个 Tgt 设 备 同 一 时 刻 既 读 又 
写 。 所 以 ， 在 两 个 SXP 连 接 的 主干 道上 也 将 会 有 大 
量 空闲 带宽 无 法 得 到 利用 ， 因 为 Init 和 Tgt 端 的 连接 
是 跨 网 络 节点 独占 的 。 但 是 SAS 领 域 厂商 将 会 在 它 
们 的 SAS 4.0 ( 24Gbit/s ) 产品 中 推出 可 以 将 主干 道 
带宽 充分 利用 的 特有 技术 ， 也 就 是 可 以 在 一 个 PHT 
上 对 多 个 连接 以 帧 为 粒度 时 分 复 用 ， 从 而 做 到 多 连 
接 共 享 同一 个 PHY 资 源 。 


我 们 又 一 次 看 到 了 之 前 没 看 到 的 链 路 上 的 底层 
暗流 。 前 文中 你 只 看 到 了 高 层 的 交互 ， 哪 还 知道 底层 
如 此 复杂 ? 就 像 发 快递 一 样 ， 你 只 看 到 了 快递 员 从 你 
手中 拿 走 货 ， 而 看 不 到 货物 在 运输 过 程 中 都 经 历 了 什 
么 。 如 果 图 7-216 是 一 个 多 层 透视 图 的 话 ， 那 么 红色 
的 RRDY 原 语 部 分 应 该 位 于 最 底层 。 然 而 ，RRDY 只 
是 暗流 中 的 一 股 ， 还 有 另 一 股 常见 的 暗流 ， 那 就 是 
ACK 和 NAK 原 语 。 
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SAS 协 议 规定 接收 方 必须 针对 每 一 个 接收 到 
的 帧 回复 ACK 或 者 NAK， 如 果 帧 校 验 无 误 则 回复 
ACK， 校 验 有 误 则 回复 NAK。 发 送 帧 的 一 方 会 维护 
一 个 计时 器 ， 超 过 1 ms 没有 收 到 任何 应 答 (不 管 是 
ACK 还 是 NAK) 的 话 ， 则 会 发 送 DONE (ACK/NAK 
TIMEOUT) 原 语 尝试 关闭 连接 。 而 且 ， 在 收 到 针对 
上 一 个 发 出 的 帧 的 ACK/NAK 之 前 ， 发 送 方 不 会 再 发 
出 下 一 个 帧 (SSP Data 帧 不 受 该 限制 ) ， 这 属于 一 种 
完全 同步 的 交互 方式 。 

这 与 PCIE 的 设计 不 同 。 还 记得 吗 ，PCIE 可 以 用 
一 个 ACK 批 量 确认 之 前 发 送 的 一 堆 数 据 ，TCP/IP 传 
输 协议 也 是 可 以 批量 确认 ，PCIE 和 TCP/IP 属 于 异步 
的 交互 方式 。 只 不 过 ， 它 们 都 不 允许 无 限制 地 在 没收 
到 ACK 之 前 发 送 大 量 数据 ， 它 们 都 有 一 个 发 送 窗口 
的 限制 ， 超 出 这 个 限制 也 需要 停止 发 送 ， 等 待 ACK/ 
NAK 到 来 才能 继续 发 送 后 续 数据 。 所 幸 的 是 ， 对 于 
SSP Data 帧 ， 一 方 在 没有 得 到 对 方 的 ACK/NAK 之 
前 可 以 连续 发 送 若干 个 SSP Data 帧 〈 必 须 为 相同 的 
Tag) 。 发 送 方 会 记录 那些 没有 得 到 ACK 应 答 的 已 发 
出 Data 帧 的 个 数 ， 接 收 方 可 以 异步 返回 ACK/NAK。 
但 是 由 于 ACK/NAK 只 是 4 字 节 的 原 语 ， 其 不 携带 任 
何 信息 ， 无 法 做 到 PCIE 或 者 TCP/IP 那 样 批量 ACK。 
所 以 接收 方 欠 发 送 方 几 个 ACK， 后 续 就 都 得 补 上 对 
应 数量 的 ACK/NAK， 发 送 方 收 到 一 个 ACK/NAK 就 
将 计数 器 -1， 一 直 减 到 0 为 止 ， 证 明 接收 方 不 欠 自 己 
ACK/NAK 了 。 图 7-218 中 可 以 看 到 ，Tgt 端 在 最 后 针 
对 Init 端 之 前 连续 发 送 的 4 个 SSP Data 帧 批量 返回 了 4 
个 ACK 给 Init 端 。 

但 是 ， 这 种 方式 也 带 来 了 一 些 麻烦 。Init 端 如 果 
超时 之 后 还 没有 收 到 对 应 数量 的 从 款 ， 则 根本 无 法 
判断 是 哪个 Data 帧 对 方 没有 收 到 或 者 有 问题 需要 重 
传 ， 所 以 Init 端 只 能 重 传 距 上 一 次 收回 所 有 欠 款 的 那 
个 时 间 往 后 的 所 有 Data 帧 ， 并 将 帧 中 的 Changing Data 
Pointer 字 段 置 为 1， 从 而 告知 对 方 “我 也 不 知道 你 哪 
些 收 到 哪些 没收 到 了 ， 全 部 再 发 送 一 遍 ， 你 根据 帧 中 
的 Data Offset 字 段 值 自行 判断 吧 ”。 


97-217 端 到 端的 流 控 与 局 部 链 路 流 控 示意 图 
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Initiator RRDY RRDY Target 
Command 
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Data Frame (х2) 
RRDY 
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time time 


图 7-218 展示 了 ACK/NAK 原 语 的 带 数 据 的 SCSI 写 命令 
交互 过 程 

(4) PHY Layer, 

这 一 层 主要 工作 包括 : N/Mb 编 码 ， 自 动 插 入 
ALIGN 原 语 进行 时 钟 差异 补偿 (前 文中 介绍 过 ) ， 负 
责 生成 OOB 信 和 号 以 及 相关 原 语 执行 链 路 初始 化 和 速率 
协商 过 程 ， 负 责 从 接收 的 信号 中 提取 时 钟 以 及 进行 双 
字 检 测 和 同步 ， 负 责 节 能 管理 。 

图 7-219 所 示 为 链 路 层 和 物理 层 的 全 局 视图 。 物 


SSP SMP STP 


To Physical Layer 


理 层 中 也 维护 着 几 个 状态 机 用 于 追踪 当前 的 状态 ， 以 
便 生 成 对 应 的 控制 信号 。 比 如 当 链 路 上 传递 的 双 字数 
量 达到 2048 时 ， 物 理 层 状态 机 强行 插入 一 个 ALIGN 用 
于 时 钟 补偿 。 


物理 层 按照 固定 间隔 插入 ALIGN 进 行 时 钟 补 ， 
偿 ， 而 链 路 层 也 按照 固定 间隔 插入 ALIGN 进 行 速率 
匹配 。 这 两 个 动作 看 上 去 是 重 登 的 ， 其 实 两 者 都 是 
必须 的 ， 位 于 不 同 作用 层面 。 


SAS PHY 在 收 到 PHY Reset 信 号 时 则 进入 Reset 
流程 ， 重 新 发 出 OOB 并 重新 速率 协商 〈 如 图 7-220 所 
示 ，PHY Reset 与 Link Reset 的 结果 是 不 同 的) 。 如 图 
中 右 侧 所 示 ，PHY 层 从 链 路 上 接收 了 双 字 之 后 ， 会 同 
时 广播 给 链 路 层 上 多 个 不 同 的 接收 模块 ， 因 为 PHY 层 
并 不 判断 接收 到 的 双 字 到 底 属于 哪 种 业务 流量 从 而 点 
对 点 发 送 给 对 应 接收 器 ， 这 样 做 成 本 太 高 。 这 些 接收 
模块 相当 于 处 在 一 个 共享 总 线 上 ， 但 是 链 路 层 会 按照 
当前 的 连接 类 型 ， 比 如 是 SSP/SMP/STP， 来 关闭 其 中 
不 必要 的 接收 器 〈 关 闭 其 总 线 前 端的 三 态 缓冲 门 ) 。 


Once dword synchronization is 
achieved, all receivers can see 
the incoming data stream and 
just take what they need from it. 


Receivers are enabled or 
disabled based on the 
connection request. 


Receive data stream from 
physical layer 


图 7-219 PHY 功 能 层 架构 一 览 
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Link reset sequence 
- 


= Phy reset sequence 
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=e |, 


图 7-220 Link Reset 与 PHY Reset 的 步骤 


最 后 ，PHY 层 还 需要 做 一 件 非常 重要 的 工作 ， 
那 就 是 从 线路 上 凌乱 信号 中 检测 到 双 字 的 边界 。 我 
们 说 SAS 线 路 上 的 信号 粒度 是 以 双 字 ， 也 就 是 40 位 
(8/10bit 编 码 后 ) 为 一 组 ， 不 管 是 原 语 OARE) 
还 是 帧 〈 多 个 双 字 ) 。 这 就 像 情 报 员 打开 无 线 电 ， 听 
到 的 无 非 是 一 堆 吐 吐 跑 ， 谁 知道 从 哪里 开始 的 几 个 吐 
吐 吐 表示 了 一 个 摩尔 斯 电码 或 者 自 定义 的 加 密 电 码 ? 


- 
SAS speed negotiation 


рад Identification sequence 


情报 员 必 须 练 就 一 副 迅 速 判断 的 本 领 ， 只 要 知道 了 一 
个 电码 的 边界 ， 那 么 后 续 的 电码 只 要 按照 每 40 位 为 一 
组 切 分 就 可 以 了 。 这 个 过 程 被 称 为 双 字 同步 (dword 
Synchronization, DWS) 过 程 。 有 一 个 专门 的 检测 器 
来 做 这 件 事 。 

在 链 路 初始 化 过 程 中 ， 当 OOB 阶 段 结束 之 后 ， 双 
方 开始 各 自发 送 ALIGN 原 语 。 也 就 是 在 此 时 ， 底 层 电 
路 开始 进行 时 钟 提取 和 同步 ， 以 便 让 接收 端 能 够 感受 
到 bit， 这 是 前 提 ， 然 后 再 进入 双 字 同步 检测 过 程 ， 如 
图 7-221 所 示 。 由 于 ALIGN 属 于 原 语 ， 其 第 一 个 字 节 
为 K28.5， 所 以 检测 器 通过 检测 并 锁定 该 字符 的 高 7 位 
(俗称 为 comma， 喜 号 ) ， 然 后 检查 其 后 3 位 ， 来 判 
断 K28.5 的 边界 。 由 于 8/10b 编 码 机 制 ， 多 出 来 的 2 位 可 


以 引入 大 量 宛 余 字符 ，K28.5 字 符 的 码 形 在 所 有 编码 
之 后 的 字 节 中 是 唯一 的 ， 也 就 是 说 ， 上 层 数据 字 节 被 
编码 之 后 不 可 能 出 现 与 K28.5 重 县 的 码 形 。 所 以 ， 只 
要 找到 了 K28.5， 就 相当 于 找到 了 一 个 原 语 的 第 一 个 
字符 ， 那 么 之 后 就 可 以 按照 4 字符 为 一 组 对 信号 进行 
切 分 ， 也 就 做 到 了 双 字 同步 。 


40-bit primitive dword received 
"ALIGN(0)" 


Incoming 


bit stream 
——отто1 И отототофтототото {010011109 


D10.2 D10.2 D273 


Deteçt "comma" pattern 
^_^ 


10-bit K28.5 control character recognized here 
图 7-221 ” 双 字 检测 与 同步 


(5) 物理 层 。 

到 了 物理 层 这 一 层 ， 一 切 复杂 的 上 层 逻 辑 的 作用 
结果 都 体现 为 一 个 个 双 字 ， 然 后 就 是 一 个 个 位 。 这 就 
像 现 实 世 界 中 的 一 切 物质 ， 大 到 日 月 星辰 ， 小 到 沙子 
细胞 ， 它 们 最 底层 不 过 都 是 一 个 个 分 子 原子 ， 最 终 都 
是 空间 场 的 1 和 0 两 个 状态 的 振动 。 物 理 层 将 上 层 下 发 
的 编码 好 的 并 行 双 字 流 用 Serdes 转 换 为 串 行 位 流 ， 再 
经 过 线路 编码 器 (比如 SAS 2.0 规 范 采用 NRZ 线 路 编 
码 ) ， 输 送 到 均衡 和 预 加 重 处 理 模块 ， 最 终 通过 差分 
电路 输出 到 线路 上 。 

图 7-222 所 示 为 差分 电路 信号 抗 干扰 原理 。 差 分 
电路 会 将 原始 信号 输送 到 一 个 反 相 器 ， 然 后 将 所 得 
的 反 相位 信号 从 另 一 根 导 线 上 一 并 输送 到 接收 端 。 这 
FÉ, 一旦 链 路 上 有 某 种 干扰 ， 如 图 7-222 右 侧 所 示 ， 
该 干扰 将 线路 电 平 下 压 了 一 定 的 值 ， 那 么 由 于 差分 信 
号 线 是 并 行 排列 的 ， 那 么 其 有 很 大 概率 同时 收 到 干 
扰 ， 但 是 两 者 的 电 平 差 值 却 可 以 维持 不 变 ， 达 到 了 抗 
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干扰 的 目的 ， 接 收 方 只 要 采用 一 个 模拟 信号 减法 器 就 
可 以 还 原 出 原始 信号 。 

本 章 前 文中 也 介绍 过 ， 由 于 传输 线路 的 电容 性 ， 
其 整体 体现 为 一 个 低 通 滤波 器 。 而 方 波 的 棱角 处 是 由 
大 量 高 频 模拟 信号 成 分 从 加 而 成 的 ， 经 过 低 通 线路 之 
后 ， 这 些 高 频 分 量 会 被 滤 除 从 而 导致 波形 失真 。 如 图 
7-223 左 侧 所 示 ， 接 收 端的 波形 变 得 圆滑 而 无 棱角 ， 
这 样 不 利于 接收 方 采样 点 路 的 判断 。 图 7-223 右 侧 为 
在 发 送 方 经 过 预 加 重 处 理 之 后 的 波形 ， 棱 角 上 的 电 平 
值 被 增强 了 。 信 和 号 到 达 接 收 方 后 ， 波 形 仍 能 够 保持 一 
定 的 棱角 。 

波形 棱角 更 加 分 明 ， 更 像 方 波 ， 就 更 有 利于 接 
收 端的 采样 判决 电路 采样 到 正确 信号 。 如 图 7-224 所 
示 ， 如 果 波 形 过 于 圆滑 ， 则 采 到 的 电 平 值 就 不 够 高 或 
者 不 够 低 。 实 际 信号 质量 可 能 远 比 图 中 所 示 的 要 差 。 

图 7-225 所 示 为 SAS 整 个 体系 的 层次 模型 一 览 ， 
其 中 Device 侧 的 架构 与 SXP 侧 的 架构 又 稍 有 不 同 。 
其 中 SL 表 示 SAS Link，SL_IR 表 示 SAS Link Layer 
Identification and Reset 的 意思 。 图 7-225 右 侧 给 出 了 更 
多 的 SAS 系 统 内 的 状态 机 名 称 。 


7.4.3.9 SAS 控 制 器 内 部 架构 


前 文 给 出 的 IO 控制 器 内 部 架构 都 是 概要 的 示意 
图 。 是 时 候 向 大 家 展示 一 款 实际 的 SAS IO 控制 器 的 
架构 ， 以 及 梳理 其 IO 处 理 流程 了 。 

图 7-226 所 示 为 PMC-Sierra 公 司 早年 的 一 款 SAS 70 
控制 器 内 部 架构 图 。 可 以 看 到 其 包含 几 大 组 件 : 负责 
运行 固件 的 主 控 CPU 〈 双 MIPS 核 心 ) 、 负 责 与 Host 
端 对 接 的 PCIE 控 制 器 、 负 责 读 写 Host RAM 数 据 的 
Block DMA 控 制 器 、 负 责 与 后 端 SAS 网 络 交互 的 SAS 
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大话 计 算 机 一 一 计算 机 系统 底层 架构 原理 极限 剖析 


通道 控制 器 模 组 、 负 责 一 些 重复 量 较 大 运算 的 硬 加 速 
模块 〈 可 选 ) ， 以 及 用 于 所 有 上 述 角 色 之 间 相 互 传递 
命令 和 数据 的 GSM (Global Shared Memory， 本 质 上 
是 一 大 片 SRAM) 模块 。 各 个 角色 采用 AXI 总 线 访 问 
GSM。 图 7-225 所 示 为 厂商 手册 中 更 加 专业 的 (含有 
更 多 专业 名 词 的 ) 架构 图 。 

如 何 将 厂商 定义 的 名 词 一 眼看 透 ， 并 转换 为 通 
用 的 概念 和 角色 定义 ， 是 一 名 计算 机 从 业者 的 基本 
技能 。 其 中 IOP 和 MSGU 分 别 表 示 I/O 处 理 器 (I/O 
Processor) 和 消息 单元 (Message Unit) ， 它 俩 本 质 
上 就 是 主 控 CPU 中 的 两 个 MIPS 核 心 。 其 中 一 个 专门 
处 理 并 分 析 从 PCIE 控 制 器 接收 过 来 的 VO 任务 书 ， 并 
生成 对 应 的 后 端 命令 任务 书 ， 所 以 该 核心 称 为 消息 单 
元 ; 另外 一 个 则 专门 接收 并 处 理由 MSGU 下 发 的 任务 
书 ， 将 它们 发 往 后 端的 SAS 通 道 控 制 器 去 执行 ， 所 以 
这 个 核心 称 为 IO 处 理 器 。 后 端的 SAS 通 道 控 制 模块 


被 称 为 Octal SAS/SATA Processor (OSSP) 。Octal 是 
说 该 模块 共 可 推出 8 个 PHY， 所 以 为 Octal， 但 是 由 于 
每 4 个 PHY 共 享 同一 份 控制 逻辑 ， 所 以 其 只 能 形成 x4 
宽 端口 ， 而 不 能 形成 x8 的 宽 端 口 。 

图 7-228 所 示 为 BDMA 模 块 内 部 架构 图 。 其 可 以 在 
Host RAM、1LO 控 制 器 内 部 的 GSM、LO 控 制 器 内 部 的 
DDR RAM 三 者 之 间 相互 移动 数据 。BDMA 模 块 从 位 于 
GSM 中 的 特定 FIFO 队 列 中 取出 任务 书 ， 从 而 根据 任务 
书 中 描述 的 复制 数据 的 源 地 址 、 目 标 地 址 、 长 度 等 信 
息 来 执行 任务 ， 所 以 BDMA 模 块 内 部 有 一 个 Descriptor 
Fetching Engine， 其 作用 就 是 从 GSM 中 的 BDMA 任 务 书 
队列 中 取 回 任务 执行 ， 并 返回 执行 结果 状态 。 

图 7-229 所 示 为 OSSP 内 部 架构 图 。 整 个 OSSP 由 
8 根 枪 管 和 一 个 SAS 传 输 层 总 控制 模块 组 成 。 每 根 
枪 管 中 包含 : 与 GSM 交 互信 息 的 FIFO 队 列 、 用 于 
SAS 传 输 层 和 Port 层 控制 的 HSST (Hardened SAS/ 
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图 7-224 ”接收 端的 采样 判决 过 程 
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图 7-225 SAS 体系 全 局 框架 示意 图 
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图 7-227 厂商 手册 中 更 加 专业 的 架构 图 
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17-229 OSSP 模 块 内 部 架构 图 


SATA Transport) 模块 、 用 于 SAS 链 路 层 控 制 的 SSPA 

(SAS/SATA Port and Link Accessing) 模块 以 及 用 
于 SAS PHY 和 物理 层 控制 的 SSPL (SAS/SATA PHY/ 
Physical Layer) 模块 。 正 如 我 们 前 文中 图 7-212 介 绍 
过 的 一 样 ，HSST 有 一 个 全 局 状态 机 主 控 和 位 于 各 个 
PHY 前 端的 HSST 分 布 式 控制 模块 。 

其 中 ，HSST、SSPA、SSPL 各 自 又 包含 更 加 复杂 
的 架构 。 图 7-230 所 示 为 SSPL 模块 的 内 部 架构 图 。 篇 幅 
所 限 ， 这 里 就 不 具体 介绍 细节 了 ， 请 大 家 自行 参 悟 。 

可 以 看 到 ，SAS IO 控制 器 内 部 是 一 个 极度 复杂 
的 结构 ， 越 往 后 端 越 复 杂 ， 越 往 前 端 越发 简单 。 因 为 
前 端 更 多 是 由 通用 CPU 核心 + 固件 + 共享 存储 器 实现 
的 ， 复 杂 的 逻辑 被 隐藏 在 了 固件 的 代码 中 。 而 后 端 对 
速率 要 求 既 高 又 稳定 ， 所 以 后 端 需要 将 处 理 逻 辑 展开 
为 数字 逻辑 硬件 ， 那 必然 看 上 去 就 复杂 得 多 了 。 

图 7-231 所 示 为 上 述 各 个 部 件 之 间 的 沟通 关系 示 
意图 。 左 侧 的 灰色 框 为 Host 端 部 分 ， 可 以 看 到 包含 


Host Driver 以 及 其 初始 化 好 的 Send Queue (图 中 的 
Inbound Queue, IQ) 和 Completion Queue (图 中 的 
Outbound Queue, OQ) ， 以 及 由 IO 控制 器 一 侧 负责 
更 新 的 IQ-CI (IQ Consumer Index) 指针 变量 和 OQ-PI 
(OQ Producer Index) 指针 变量 ， 这 些 角色 都 被 存储 
在 Host 端 的 RAM 中 。 
右 侧 灰色 框 中 表示 I/O 控 制 器 一 侧 的 软 硬 件 角 
色 ， 包 含 用 于 缓存 从 Host 端 取 回 来 的 IO 任务 书 〈 这 
里 称 为 IJO Message Block, IOMB) 的 IN-IOMB Buffer 
Pool 以 及 缓存 要 向 Host 端 写 入 的 IO 状态 或 其 他 信息 
的 OUTIOMB Buffer Pool。， 以 及 由 Host 端 驱动 程序 
负责 更 新 的 IQ-PI 和 OQ-CI 指 针 寄 存 器 。 关 于 用 于 IO 
场景 下 的 队列 及 其 对 应 的 指针 在 本 章 之 初 已 经 介绍 过 
了 。LO 控 制 器 一 侧 还 包括 映射 到 PCIE 各 个 BAR 的 地 
址 空间 ， 比 如 配置 参数 寄存 器 、 内 部 缓冲 器 等 角色 。 
中 的 MPI Configuration Table (MPI 是 该 产品 定义 的 
名 词 ， 指 的 是 Host Driver 与 IO 控制 器 之 间 的 接口 ， 全 
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DWORD_VALIDANVALID, 
PRIM_VALID 


PRBS_RX 


RDATC_OUT 
 RDAT_OUTI31:0), 


TESTPAT_RX 


MULTIDEC_108 


图 7-230 ”SSPL 模 块 内 部 架构 图 


称 Message Passing Interface) 用 来 存放 的 就 是 各 种 配 
置 参 数 ， 其 被 映射 到 该 1/O 控 制 器 的 BAR#0 空 间 内 ， 

可 以 直接 被 Host 端 程序 访问 。 这 一 侧 还 包括 用 于 存 
放 给 OSSP 下 发 的 任务 书 的 VO State Table、IOST 与 IT 
Context Table (Initiator/Target Context Table) 、 用 于 
OSSP 缓 存 SAS 帧 的 SAS Frame Buffer， 以 及 用 于 各 个 
角色 之 间 传 递 信息 的 其 他 FIFO 队 列 。 上 述 这 些 角色 都 


存在 于 GSM 中 。 

下 面 就 来 看 一 下 ，Host 端 发 送 的 读 写 命令 是 怎么 
被 IO 控制 器 中 这 些 角色 协作 执行 的 ， 如 图 7-232 和 图 
7-233 所 示 。 

下 面 的 英文 给 出 了 一 条 Host 端 发 出 的 SCSI 读 命令 
在 HSST 中 的 执行 过 程 ， 作 为 计算 机 从 业者 读 懂 专业 
英文 是 基本 素养 ， 所 以 冬瓜 哥 就 不 翻译 了 。 
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图 7-231 SAS IO 控制 内 部 的 固件 角色 和 队列 (HW: Hardware; FW: Firmware) 


Processor Complex System(PCS) 


Global Shared Memory 
(GSM) 


Frame Buffer 


HDD 


图 7-232 LO 流程 示意 图 (1) 


(1) CPU setup the IO State Table entry by setting request queue (the request queue for the port it wants to 
up fields like transfer size, IT context Index. CPU needs to send the command). It then constructs a request entry, 
keep track of this tag assignment to know what addresses setting up fields like protocol, IT context index tags, etc. The 
are available for IOST. This field is referenced in the field tag assigned to the IOST entry is used to index the IOST. 
of the Request entry called Own TAG. (3) CPU writes the request entry to the address it 

(2) CPU gets а free address from free FIFO of got from free FIFO. 


7 可 大 话 计算 机 一 一 计算 机 系统 底层 架构 原理 极限 剖析 


The HOST driver generates a new IOMB with the command request in the next 


available inbound queue element 
command to the target device 
Frame Buffer 


request 
о IDP reads the command request from IN IOMB GSM and process it 


Ф IOP allocates IO context, HSST Кед О entry апа sends IO request to OSSP 
@ OSSP receives data frames from the target device and stores them in GSM 


9 MSGU notifies IOP (through IN IOMB RB interrupt) about the new command 


ө BDMA notifies MSGU that the ОМА operation is complete 


ө BDMA moves the IOMB from host memory to IN IOMB GSM 
о MSGU updates IQ-CI in host memory 


Ө The HOST driver updates the IQ-PI inside SPC 
© SPC PCI block notifies MSGU about the IQ-PI change 
о MSGU sets up а ОМА operation to retrieve the ТОМВ 


= Ф OSSP consumes HSST Req Q entry and sends SAS/SATA IO Request 


э 
w 
о 


(4) Independent to the above steps, HSSTx port 
Will try to acquire receive frame buffer pointers (GSM 
address) from the free FIFO of receive/transmit buffer 
queue. 

(5) Global Transport starts to process the 
command. It assigns a HSSTx port to send the frame. 
The port decodes the request entry, opens a connection, 
constructs the command frame and sends a command 
frame whose tag value points to the IOST entry. 

(6) After the command frame is sent, HSSTx 
waits for the ACK/NAK for the frame. Upon receiving of 
the ACK/NAK, Global Transport will free up the request 
entry. It writes to the completion FIFO of request queue 
(for the command). 

(7) The connection may be closed. Eventually, 
the HSSTx port receives the data frames for the command 
from the target device. It pulls the IOST entry for the 
command (using the Tag value returned in the frame) 

(8) The HSSTx port then writes the data frames 
into the receive buffer entries it was allocated in step 5. In 
the meantime, Global Transport gets a free address from 
one of the BDMA inbound queue. 

(9) When a frame is received (1K bytes or less) 
and is written into GSM, Global Transport writes up the 
BDMAA descriptor and posts to the BDMA inbound 
queue. In addition, Global Transport updates the IO 


@ OSSP sets up a DMA operation to move data to HOST memory 


@ BDMA transfers data from GSM to host memory 


response 


© MsGU sets ира ОМА operation to send the response ЮМВ 
о SPC PCI block generates interrupt to the HOST to notify completion message 


@ ВОМА moves the IOMB from OUT IOMB GSM to the OQ т HOST memory 


© ВОМА notifies MSGU that the ОМА operation is complete 


© MSGU updates the OQ-PI т host memory 
© HOST reads and processes the command response outbound IOMB 


@ IOP notifies MSGU (through OUT IOMB RB interrupt) about the command 
@ HOST updates the OQ-CI inside SPC 


© ТОР generates command response message п OUT IOMB GSM 


е ВОМА notifies OSSP of ОМА operation is complete 
© OSSP receives IO response from the target device 

@ OSSP notifies IO completion to IOP through HSST IMQ 
@ MSGU sets up interrupt generation in the SPC PCI block 


IO 流程 示意 图 (2) 


context entry. (current RPM behavior) 

(10) BDMA sees inbound queue, dereference 
the address from the post FIFO and reads the BDMA 
descriptor. It then moves the data frame according to 
the descriptor info. When done, it writes to the BDMA 
inbound completion queue. 

(11) Global Transport sees the BDMA completes, 
writes back the GSM address back into the free FIFO. 
(It can also write other BDMA inbound request before 
one is completed). Note that only Global Transport is 
responsible to write back the free addresses into receive 
frame buffer not CPU. 

(12) When all the data transfer is done, the 
HSSTx port receives a response frame. The port gets а 
free address from the inbound message queue, writes up 
the message, and writes to the post FIFO of the inbound 
message queue. 

CPU reads the post FIFO of inbound message queue. 
It then dereferences the message entry pointed by the 
posted address. Depending on the status of the command, 
CPU act accordingly. 

下 面 的 英文 给 出 了 一 条 Host 端 发 出 的 SCSI 写 命令 
在 HSST 中 的 执行 过 程 。 

(1) CPU sets up data to be written. Data can come 
from different places. such as DDR or PCL 

(2) CPU setup the IO State Table entry by setting 


up fields like transfer size, IT context index, address of 
data etc. CPU needs to keep track of this tag assignment 
to know what addresses are available for IOST. This field 
is referenced in the field of the Request entry called Own 
TAG. 

(3) CPU gets a free address from free FIFO of 
Tequest queue (the request queue for the port it wants to 
send the command). It then constructs a request entry. 
setting up fields like protocol, IT context index tags, etc. The 
tag assigned to the IOST entry is used to Index the IOST. 

(4) CPU writes the request entry to the address it 
got from free FIFO. 

(5) Independent to the above steps, HSSTx port 
Will try to acquire receive/transmit frame buffer pointers 
(GSM address) from the free FIFO of receive/transmit 
buffer queue. 

(6) Global Transport starts to process the 
command. It assigns a HSSTx port to send the write 
command frame. The port decodes the request entry, opens 
a connection, constructs the command frame and sends a 
command frame whose tag value points to the IOST entry. 

(7) After the command frame is sent, HSSTx 
waits for the ACK/NAK for the frame. Upon receiving of 
the ACK/NAK, Global Transport will free up the request 
entry. It writes to the completion FIFO of the request 
queue (for the command). 

(8) Sometime later, the port receives the ХЕЕВ_ 
RDY frame for the command from the target device. 
It queues up the XFER_RDY frame by getting address 
from free FIFO of the proper XFER_RDY queue, writes 
the XFER_RDY frame (plus some control info) into the 
message, and then posts the XFER_RDY requests. 

(9) Global Transport sees non-empty the ХЕЕВ_ 
ЕРУ queue, checks whether the port is available. If so, it 
pulls out the XFER_RDY frame and starts processing. 

(10) Global Transport reads the IOST entry for 
the command (using the Tag value returned іп the XFER _ 
RDY frame. Global Transport assigns a link to send the 
frame. 

(11) The HSSTx port reads the free FIFO of 
BDMA outbound queue (select the correct type of queue 
by looking at settings in IOST entry). It then writes up the 
BMDA descriptor (putting transmit free buffer address in 
it). It then posts the BDMA request. 

(12) When BDMA is done moving the data into 
the GSM buffer, it writes to the completion FIFO of the 
BDMA outbound queue. 

(13) HSSTx port sees the completion of BDMA 
transfer and starts reading the frame. In the meantime, it 
opens up a connection to the target. The port then starts 
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sending the Наше, and ВОМА in more data when needed. 

(14) When a data frame is sent, Global Transport 
updates the IO context. In addition. it writes back address 
of current frame back to the transmit buffer queue. 

(15) When all the data transfer is done, the 
HSSTx port receives a response frame. The port gets а 
free address from the inbound message queue, writes up 
the message. and writes to the post FIFO of the inbound 
message queue. 

(16) CPU reads the post FIFO of inbound 
message queue. It then dereferences the message entry 
pointed by the posted address. Depending on the status of 
the command, CPU act accordingly. 

可 以 看 到 ， 一 切 交 互 都 是 将 任务 书 放 到 队列 中 而 
进行 的 。 
7.4.3.10 SAS SXP 内 部 架构 


图 7-234 所 示 为 一 款 48 PHY 的 SAS SXP 的 内 部 架 
构 ， 其 上 有 48 根 枪 管 ， 内 含 物理 层 和 SSPL PHY 模 块 、 
SSSF (SAS/SATA Stor-Forwarding) 缓冲 加 速 模块 、 
SXI 链 路 层 控制 模块 。SXP 不 需要 传输 层 控制 模块 ， 
为 它 只 负责 到 建立 连接 这 一 层 ， 后 续 只 做 交换 转发 。 

所 有 枪 管 连接 到 一 个 转盘 上 ， 这 就 是 核心 的 
Crossbar 交 换 矩 阵 ， 也 就 是 图 中 的 ECR 模 块 。ECM 模 
块 是 ECR 的 实际 控制 者 ，ECR 模 块 会 将 所 有 Open 请 
求 路 由 给 ECM 模 块 进行 仲裁 等 管理 ，ECM 将 控制 信 
号 发 送 给 ECR 的 电路 MUX/DEMUX， 从 而 控制 对 应 
连接 的 连通 。BPP (Broadcast Primitive Processor) 负 
责 所 有 广播 消息 的 接收 和 转发 。 为 了 对 上 述 所 有 部 
件 的 运行 参数 进行 配置 和 管理 、 监 控 ，SXP 内 部 集成 
了 一 个 CPU 核心 以 及 一 些 外 围 接 口 用 于 对 整个 SXP 进 
行 管理 。CPU 运 行 固件 程序 ， 所 有 上 述 器 件 的 控制 寄 
存 器 都 被 映射 到 该 CPU 的 物理 地 址 空间 ， 固 件 程序 
通过 访问 这 些 地 址 对 寄存 器 进行 配置 。 PACK 模 块 相 
当 于 一 个 与 内 部 CPU 相连 接 的 SAS IO 控制 器 ， 其 作 
用 是 充当 SSP Tgt 端 ， 用 于 接收 SES (SCSI Enclosure 
Service) 命令 ， 以 便 对 整个 SXP+ 硬 盘 + 机 箱 组 成 的 系 
统 做 整体 控制 ， 比 如 LED 指 示 灯 的 亮 灭 控制 、 各 种 传 
感 器 参数 获取 等 。 


7.5 本章 小 结 


本 章 我 们 介绍 了 计算 机 IO 的 方式 和 几 种 基本 的 IO 
网 络 ， 你 应 深刻 理解 下 面 两 点 。 

四 ”任何 外 部 设备 都 是 一 个 单独 的 微型 计算 机 ， 
它们 通过 某 种 网 络 连接 到 主 计算 机 的 某 种 网 络 控制 
器 上 。 

四 ”任何 IO 的 源头 是 将 要 发 送 给 外 部 设备 的 命 
令 和 数据 指针 ， 利 用 访 存 的 方式 发 送 给 连接 着 外 部 设 
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备 的 网 络 控制 器 ， 然 后 再 由 该 控制 器 按照 某 种 方式 将 
信息 传送 给 外 部 设备 。 

那么 ， 网 络 和 IO 的 区 别 和 联系 是 什么 ? 从 广义 
上 来 讲 ，L/O 的 承载 者 是 网 络 系 统 ， 网 络 通信 过 程 本 
身 就 是 一 种 IO 过 程 。 从 狭义 上 讲 ，IO 的 一 种 特性 是 
必须 让 计算 机 通过 该 网 络 识别 到 某 种 “设备 ”， 那 
么 该 网 络 才能 算是 IO 网 络 。 而 有 些 网 络 ， 比 如 以 太 
网 ， 多 数 时 候 计算 机 通过 该 网 络 并 没有 识别 到 什么 
设备 ， 此 计算 机 虽然 可 以 连接 到 另 一 台 计算 机 ， 但 
是 计算 机 中 并 不 会 出 现 “ 设 备 ”， 而 是 可 以 列 出 一 
堆 目 前 正在 通信 的 目标 地 址 ， 每 个 IP 地 址 就 对 应 着 
一 台 计 算 机 。 这 些 计算 机 也 可 以 算 作 是 该 主 计算 机 
的 设备 ， 但 是 并 不 是 附属 于 该 计算 机 的 设备 ， 而 是 
对 等 设备 。 

正 因 如 此 ， 本 章 先 介绍 了 网 络 通信 系统 的 原理 
和 本 质 ， 然 后 才 介绍 了 PCIE、USB 和 SAS 这 三 种 典型 
的 用 于 不 同 场景 、 目 前 主流 的 IO 网 络 ， 其 本 质 上 与 
以 太 网 类 似 。 那 么 ， 有 通过 以 太 网 识别 到 设备 的 方案 
Z? 必须 有 ，iSCSI 就 是 其 中 一 种 机 制 ， 该 机 制 通过 
以 太 网 识别 到 一 块 虚拟 的 SCSI 设 备 ， 其 被 广泛 应 用 于 
外 部 存储 系统 中 。 

PCIE、USB 和 SAS 网 络 一 般 都 被 局 限 在 单个 计算 
机 系统 内 部 ， 不 用 于 多 个 计算 机 之 间 的 连接 ， 虽 然 你 
可 以 这 样 做， 也 的 确 有 人 这 样 做 ， 比 如 用 PCIE、SAS 
或 者 USB 来 互联 多 台 计算 机 。 但 是 这 种 方式 并 不 通 
用 。 这 些 网 络 我 们 可 以 称 为 系统 内 部 网 络 /总 线 。 更 加 
通用 的 用 于 计算 机 间 互 联 的 网 络 ， 还 是 诸如 以 太 网 、 
FC、Infiniband 等 外 部 网 络 。 后 面 这 些 网 络 之 所 以 在 外 
部 得 到 广泛 使 用 ， 原 因 一 方面 是 由 于 其 硬件 简单 、 成 
本 低廉 ， 另 一 方面 也 因为 其 抓 住 了 历史 机 遇 ， 建 立 了 
强大 的 生态 ， 大 量 的 人 习惯 了 使 用 它们 ， 先 入 为 主 。 

纵然 有 iSCSI 这 种 方案 ， 但 是 人 们 并 没有 广泛 将 
以 太 网 算 作 一 种 IO 网 络 。 同 理 ， 以 太 网 也 可 以 承载 
访 存 流量 ， 比 如 RDMA over Ethernet， 但 是 人 们 并 没 
有 将 以 太 网 用 作 广 谱 的 访 存 网 络 。 一 方面 以 太 网 一 
开始 的 速率 并 不 高 ， 一 直到 近 几 年 才 出 现 10Gbit、 
40Gbit、100Gbit， 甚 至 将 来 的 400Gbit 以 太 网 ， 而 同 
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时 期 的 PCIE 网 络 x16 通 道 的 话 ， 速 率 还 是 远 高 于 以 太 
网 ， 而 且 成 本 也 都 算 在 了 CPU 里 ， 以 太 网 则 需要 外 接 
独立 芯片 ， 而 且 也 通过 PCIE 接 入 系统 ， 即 便 是 以 太 网 
在 将 来 速率 可 能 超过 PCIE， 也 照样 受 限于 PCIE。 另 
一 方面 以 太 网 在 传输 保障 、 流 控 方 面 缺 乏 完善 机 制 ， 
其 并 不 具备 PCIE、SAS 那 样 比较 完整 的 机 制 ， 虽 然 以 
太 网 标准 也 在 逐渐 发 展 当中 。 

如 果 再 深入 思考 一 下 的 话 ， 可 以 体会 到 计算 机 
的 本 质 其 实 是 路 由 网 络 。 另 外 ， 分 布 在 网 络 上 的 节 
点 ， 可 能 是 计算 节点 〈 比 如 ALU) 、 存 储 节点 (比如 
RAM. Cache) 或 者 控制 节点 。 所 以 ， 计 算 机 系统 就 
是 将 计算 部 件 、 存 储 部 件 、 控 制 部 件 用 网 络 传送 部 件 
连接 起 来 的 一 个 集合 体 。 

本 章 后 面 的 部 分 我 们 零 零散 散 介 绍 了 一 些 上 层 IO 
协议 栈 方面 的 内 容 。IO 控 制 器 本 身 并 不 负责 生成 对 应 
的 命令 和 数据 ， 它 只 负责 将 上 层 协议 栈 生 成 的 命令 和 
数据 从 Host RAM 获 取 到 、 分 析 并 传送 给 后 端 设 备 。 
最 原始 未 分 化 的 形态 是 ， 每 种 设备 都 有 自己 的 驱动 程 
序 ， 由 驱动 程序 负责 提供 该 设备 的 上 层 访问 接口 ， 
供应 用 程序 调用 。 假 设 该 设备 为 硬盘 ， 而 且 其 接收 
的 是 非 标准 指令 ， 则 该 设备 驱动 程序 需要 提供 诸如 
readdisk()、writedisk()、controldisk()、cleardisk() 等 函 
数 ， 并 将 应 用 传递 过 来 的 参数 ， 转 化 为 硬盘 所 接收 指 
令 的 程序 模块 ， 供 上 述 函 数 在 其 下 游 某 个 位 置 调用 。 
进化 之 后 的 状态 则 是 ， 整 个 程序 社会 的 分 工 越 来 越 明 
确 ， 接 口 越 来 越 标准 ， 外 部 设备 的 接口 越 来 越 标 准 ， 
沟通 的 语言 越 来 越 标准 。 这 与 人 类 社会 的 城市 化 进程 
是 相同 的 ， 城 市 中 人 的 行为 标准 也 类 似 ， 都 说 普通 
话 ， 各 种 分 工 明显 。SCSI 协 议 栈 被 分 工 用 于 转化 上 层 
的 命令 为 SCSI 标 准 指令 ， 硬 盘 也 都 改 为 支持 SCSI 指 令 
语言 ， 硬 盘 的 驱动 程序 要 做 的 事情 就 更 少 了 。IO 控 
制 器 相当 于 城市 中 的 快递 系统 ， 给 外 部 设备 发 送 任何 
信息 都 要 经 过 快递 系统 的 转发 。 而 如 何 填写 快递 单 、 
如 何 通知 快递 公司 来 取 货 ， 这 些 就 是 底层 设备 驱动 要 
操心 的 事情 。 

最 后 ， 图 7-235 给 出 一 张 现代 计算 机 IO 全 局 图 ， 
大 家 可 以 观察 此 图 ， 以 回忆 本 章 的 全 部 内 容 框架 。 
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第 8 章 
绘声绘色 
计算 机 如 何 处 理 声音 和 图 像 


______502 утаје а КУ ом О 


了 
音 和 图 像 系 统 就 是 计算 机 的 五 官 。 没 有 存储 和 
网 络 ， 计 算 机 会 失去 基本 的 行动 能 力 ， 而 没有 图 像 和 
声音 的 话 ， 计 算 机 则 会 失去 活力 。 

我 们 已 经 在 5.4.7 和 5.4.8 两 节 中 分 别 介绍 了 发 声控 
制 和 图 像 显 示 控制 方面 的 基本 原理 ， 本 章 会 向 大 家 详 
细 地 介绍 其 细节 。 


8.4 声音 处 理 系统 


在 5.4.7 节 中 ， 我 们 假设 了 一 种 可 以 响应 一 定 频率 
范围 电信 号 而 随 之 震动 产生 声响 的 蜂 鸣 器 ， 以 及 一 个 
可 以 从 Host 端 接收 命令 并 翻译 成 对 应 频率 交 变 电流 向 
蜂 鸣 器 输送 ， 从 而 触发 后 者 发 出 多 种 音调 的 蜂 鸣 器 控 
制 器 。 在 很 早期 的 计算 机 中 ， 所 使 用 的 蜂 鸣 器 只 能 响 
应 很 窄 范围 的 频率 ， 只 能 发 出 近乎 一 种 声调 的 响声 ， 
最 多 能 够 控制 其 发 声 的 长 短 ， 无 法 控制 其 声调 。 其 多 
被 用 于 报警 使 用 ， 比 如 BIOS 检 测 到 系统 没有 插 内 存 
条 ， 则 会 控制 蜂 鸣 器 发 出 “ 叶 咬 咬 ” 三 声 急促 的 声 
响 ， 用 户 根据 不 同 长 短 的 声响 来 判断 系统 出 现 了 何 种 
错误 。 


8.1.1 让 蜂 鸣 器 说 话 


后 来 ， 个 人 计算 机 上 逐渐 使 用 了 频 响 范围 较 宽 的 
蜂 鸣 器 ， 这 使 得 其 发 声 时 可 以 带 有 更 多 谐振 频率 ， 让 
音质 变 得 相对 更 柔润 了 一 些 。 这 样 就 可 以 驱动 蜂 鸣 器 
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图 8-1 蜂 鸣 器 、 宽 频 响 喇叭 以 及 第 一 个 利用 其 发 出 中 文 语音 的 游戏 


发 出 任意 单一 频率 或 者 任意 频率 登 加 之 后 的 杂 波 了 ， 
这 意味 着 ， 其 可 以 发 出 人 声 ! 

第 一 个 用 PC 蜂 鸣 器 发 出 中 文 语音 的 游戏 程序 ， 
是 1991 年 智 冠 科技 开发 的 《三 国 演义 》， 如 图 8-1 所 
то ЖК. “匹夫 ， 出 来 与 我 决一死战 ! ”吕布 ; 
“WAE, Ж БЕР! ”在 这 之 前 的 一 两 年 
内 ， 国 外 的 一 些 游戏 已 经 开始 可 以 用 PC 喇叭 发 出 语音 
了 。 要 知道 在 25 年 前 ， 多 数 PC 电脑 用 户 是 根本 没 体验 
过 电脑 发 出 人 声 的 。 那 时 候 能 够 看 到 电脑 屏幕 上 出 现 
图 形 ， 而 不 是 一 串 串 的 字符 ， 就 已 经 让 人 兴奋 满足 不 
已 了 ， 何 况 能 听 到 声音 ? 不 过 ， 当 时 已 经 出 现 了 独立 
声卡 ， 只 不 过 独立 声卡 非常 昂贵 ， 一 般 只 有 发 烧 友 级 
别 的 消费 者 才 会 去 购买 ， 所 以 能 用 任何 PC 都 有 的 蜂 鸣 
器 发 出 声音 便 是 当时 让 人 难忘 的 记忆 。 用 PC 蜂 鸣 器 发 
出 人 声 ， 是 前 人 们 使 用 非常 聪明 的 做 法 完成 的 。 

当时 IBM 的 PC 兼容 机 广 为 流 行 ， 其 中 使 用 了 Intel 
生产 的 时 钟 发 生 器 ， 比 如 Intel 8253/8254 型 时 钟 发 生 
器 。 该 发 生 器 的 架构 如 图 8-2 所 示 。 其 中 内 含 三 个 计 
数 器 ， 程 序 可 以 将 一 个 数值 写 入 到 计数 器 中 ， 然 后 计 
数 器 就 开始 自动 倒计时 ， 当 数值 降低 到 1 之 后 ， 便 会 
将 对 应 的 Out# 信 号 置 为 高 电 平 。 利 用 这 个 时 钟 发 生 
器 ， 可 以 定时 产生 中 断 ， 从 而 让 系统 记录 时 间 以 及 实 
现 其 他 功能 。 时 钟 发 生 器 可 以 被 配置 为 多 种 模式 ， 程 
序 可 以 向 Control Word Register 中 写 入 对 应 的 控制 字 来 
切换 其 实现 各 种 模式 。 这 些 寄 存 器 中 的 信号 会 控制 下 
游 电路 中 的 逻辑 从 而 切换 到 对 应 模式 。 比 如 其 中 一 种 
模式 就 是 ， 程 序 向 Counter2 中 写 入 一 个 初始 值 ， 倒 计 


时 结束 后 电路 会 向 Out2 发 出 一 个 高 电 平 ， 然 后 回 到 低 
电 平 ， 接 着 继续 载 入 《电路 自动 保存 和 载 入 ) 使 用 刚 
才 的 初始 值 继续 倒 计时 ， 继 续 向 Out2 发 出 高 电 平 ， 这 
样 便 会 在 Out2 上 产生 一 个 恒定 周期 的 方 波 脉冲 ， 周 期 
的 大 小 可 以 通过 Counter2 的 初始 值 来 给 定 。 
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图 8-2 Intel 8235 时 钟 发 生 器 架构 图 


那么 ， 这 个 时 钟 发 生 器 与 PC 蜂 鸣 器 又 有 何 关 系 
呢 ? 原来 ， 当 时 IBM PC 普遍 被 设计 为 使 用 时 钟 发 生 
器 的 Counter2 的 Out2 输 出 端 来 驱动 蜂 鸣 器 发 声 ， 比 如 
遇 到 了 内 存 没 有 插 ， 需 要 间隔 0.2 ms 发 出 3 声 咬 声 ， 
每 一 声 持续 0.5 ms。 这 个 过 程 怎么 做 到 ? 根据 上 述 原 
理 ， 可 以 先 向 Counterl 中 写 入 一 个 初始 值 ， 只 要 按照 
该 时 钟 发 生 器 的 运行 频率 ， 精 确 计 算出 经 过 0.2 ms 时 
间 该 计数 器 会 变化 多 少 次 ， 那 就 写 入 对 应 的 数值 进 
去 ,计数器 到 了 时 间 自然 就 会 触发 一 次 高 电 平 ， 该 高 
电 平 会 触发 一 次 中 断 。 中 断 服务 程序 运行 之 后 ， 可 
以 向 Counterl 再 写 入 一 个 能 够 持续 计数 0.7 ms 的 值 ， 
让 Counter1 开 始 倒计时 ， 然 后 立即 向 Counter2 中 写 入 
一 个 能 够 持续 极 短 时 间 的 值 ， 比 如 0.001 ms。 这 样 ， 
Counter2 每 隔 0.001 ms 便 会 发 出 一 个 高 电 平 ， 让 蜂 鸣 
器 振动 一 下 ， 在 0.5 ms 内 ， 蜂 鸣 器 会 振动 5S00 次 ， 那 么 
其 振动 频率 也 就 是 1 kHz， 这 就 能 够 让 人 耳 感受 到 声 
响 了 ， 所 以 人 耳 听 到 的 就 是 一 声 持续 0.5 ms 的 长 鸣 。 
然后 Counter1 会 发 出 中 断 ， 程 序 可 以 继续 这 个 过 程 。 

那么 ， 利 用 这 种 方 波 又 是 如 何 模拟 语 声 杂 波 的 
呢 ? 利用 PWM (Pulse Width Modulation， 脉 冲 宽度 
调制 ) 这 个 技巧 就 可 以 。 如 图 8-3 所 示 ，Onut 信 和 号 发 出 
的 脉冲 在 PC 蜂 鸣 器 的 输入 线路 上 其 实 是 有 电 平 残留 
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的 ， 因 为 任何 导线 天 然 都 是 一 个 低 通 滤波 器 ， 其 电容 
性 会 让 线路 的 电 平 缓慢 地 降低 和 提升 。 那 么 ， 只 要 精 
确 控制 发 出 脉冲 的 时 间 间 隔 ， 就 可 以 让 导线 上 的 电 平 
实现 任意 波动 变化 ， 只 要 能 够 保证 足够 多 、 足 够 精细 
地 发 出 脉冲 ， 也 就 当然 可 以 产生 近似 形状 的 波形 了 。 
这 也 是 其 被 称 为 脉冲 宽度 调制 的 原因 。 得 益 于 Intel 
8235 的 运行 频率 还 是 较 高 的 ， 其 可 以 产生 足够 高 频率 
的 脉冲 来 模拟 整个 波形 。 

所 以 ， 只 要 将 语音 录制 下 来 然后 采样 量化 ， 然 后 
再 经 过 计算 将 其 转换 为 发 出 脉冲 的 时 间 间 隔 点 数据 ， 
将 这 些 数据 写 入 到 程序 中 ， 按 照 这 个 时 间 间 隔 去 控制 
Intel 8235 发 出 对 应 脉冲 就 可 以 了 。 至 于 如 何 计 算 ， 这 
就 是 程序 员 需 要 做 的 事情 和 程序 员 的 价值 所 在 ， 程 序 
员 总 能 找到 某 种 算法 方式 。 不 过 ， 由 于 这 种 调制 方式 
在 电 平 的 下 降 沿 是 让 电 平 自由 降落 ， 而 不 是 主动 输出 
某 个 电 平 ， 因 为 Intel 8235 输 出 的 电 平 值 是 恒定 不 可 变 
的 ， 所 以 下 降 沿 时 的 波形 必定 无 法 做 到 足够 精细 。 再 
加 上 PC 蜂 鸣 器 的 频率 响应 范围 不 佳 ， 所 以 最 终 产生 的 
AFELA, REENERT. 


思考 一 下 。PWM 调 制 方式 ， 是 不 是 很 像 对 模 
拟 信 号 采样 过 程 的 逆 过 程 ? 也 就 是 DAC (Digital 
Analog Converting ) 的 过 程 ? 也 就 是 将 样 点 电 平一 
个 个 放 回 到 线路 上 ? 只 不 过 PWM 顺手 利用 了 线路 
电 平 的 残留 效应 ， 下 降 时 让 电 平 由 下 降 。 而 DAC 则 
可 以 放置 任意 电 平 值 的 样 点 到 线路 上 ， 所 以 能 够 更 
加 精确 地 还 原 出 原始 波形 。 


后 来 ， 外 置 独立 声卡 广泛 应 用 于 PC， 大 家 终于 
都 可 以 听 上 高 品质 音乐 了 。 在 进一步 研究 独立 声卡 之 
前 ， 我 们 先 看 看 另 一 种 发 声 装置 。 


8.1.2 音乐 是 可 以 被 勾兑 出 来 的 


珍珠 奶茶 里 真 的 有 奶 和 茶 么 ? 果冻 真 的 是 水 果 
做 的 么 ? 呵呵 。 人 类 既然 拥有 将 化 工 原料 做 成 食物 的 
智慧 并 且 乐此不疲 ， 那 么 也 自然 也 可 以 享受 那些 非 天 
然 的 、 勾 兑 而 成 的 音乐 。 勾 竞 ， 指 的 是 将 各 种 原料 按 
照 一 定 比例 、 时 序 调和 起 来 ， 形 成 最 终 的 调和 物 的 过 
程 。 人 类 创造 的 音乐 都 是 用 各 种 乐器 演奏 出 来 的 ， 而 
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图 8-3 PWM 脉冲 宽度 调制 示意 图 
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各 种 乐器 发 出 的 声音 本 质 上 都 是 各 种 频率 的 正弦 波 的 
登 加 。 如 果 能 够 用 电路 来 生成 对 应 的 波形 ， 而 不 是 用 
乐器 的 振动 来 生成 ， 那 么 就 可 以 用 电路 取代 任何 乐 
器 。 也 就 是 说 ， 今 后 学 习 弹 吉 他 ， 就 不 需要 饱 受 左 手 
手指 头 按压 琴 弦 时 的 痛苦 ， 而 是 轻 轻 点 一 下 鼠标 ， 或 
者 轻 按 一 下 虚拟 吉他 上 的 象征 性 琴 弦 就 可 以 发 出 吉他 
的 声音 。 当 然 ， 最 好 的 办 法 是 通过 编程 直接 发 出 信号 
而 不 是 通过 按 鼠 标 /键盘 ， 从 而 更 流畅 地 演奏 虚拟 吉 
他 。 此 时 演奏 出 来 的 乐曲 的 难度 ， 会 让 所 有 吉他 大 师 
顿 感 汗颜 ， 毕 竟 一 只 手 只 有 5 根 手指 ， 其 中 只 有 4 根 用 
于 按压 琴 弦 ， 而 虚拟 吉他 则 无 此 限制 ， 甚 至 可 以 突破 
吉他 6 根 琴 弦 的 限制 ， 同 时 演奏 60 根 也 不 是 问题 。 
同时 演奏 多 个 音符 ， 可 以 形成 和 弦 。 比 如 钢琴 、 
吉他 、 古 筝 等 都 可 以 同时 按 / 拨 多 个 琴键 / 琴 弦 产生 和 
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弦 。 那 么 对 应 的 电路 也 需要 具有 这 种 能 力 ， 才 能 演奏 
出 更 悦耳 的 音乐 。 


8.1.2.1 ”可 编程 音符 生成 器 PSG 


早期 ， 曾 经 出 现 过 一 种 被 称 为 PSG (Programable 
Sound Generator， 可 编程 音符 生成 器 ) 的 独立 芯片 器 
件 ， 其 能 够 实现 单一 音色 但 是 多 个 不 同音 调 的 同时 播 
放 。 早 期 的 电视 游戏 机 发 出 的 声音 就 是 用 这 种 PSG 生 
成 的 。 如 图 8-4 所 示 为 早期 游戏 机 内 部 电路 板 ， 其 上 
就 有 一 块 PSG 芯 片 。 

如 图 8-5 所 示 为 某 PSG 芯 片 内 部 架构 图 。 位 于 最 
左 侧 的 Register 地 址 译 码 器 ， 上 位 程序 (比如 从 主 控 
CPU) 会 将 对 应 的 参数 写 入 到 对 应 地 址 的 配置 寄存 器 
中 ， 从 而 控制 下 游 电 路 的 运行 模式 。 比 如 Channel A 
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早期 的 电视 游戏 机 极其 内 部 的 PSG 
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8-5 某 PSG 芯 片 内 部 架构 图 


Tone Period 寄 存 器 ， 用 于 控制 A 通 道生 成 的 波形 的 周 
期 ， 也 就 可 以 控制 该 通道 输出 的 音调 。 它 可 以 同时 出 
输出 3 路 通道 的 波形 形成 和 弦 ， 每 一 个 通道 的 波 频率 / 
周期 都 可 以 配置 。 此 外 该 期 间 还 可 以 生成 白 噪声 ， 比 如 
游戏 中 有 些 场 景 为 了 更 加 贴 合 实际 ， 需 要 生成 底 噪 ， 或 
者 风 、 雨 等 模拟 声音 。 此 外 ， 还 有 Amplitude 寄 存 器 ， 用 
于 控制 各 个 通道 的 振幅 值 ， 幅 值 最 终 体 现 为 音量 的 大 
小 。 一 些 背 景 伴奏 的 音量 可 能 会 被 配置 得 小 一 些 。 

再 来 看 图 8-5 右 侧 。Tone Generator 和 Noise 
Generator 分 别 负责 生成 对 应 频率 /音调 的 波形 以 及 白 
噪声 波形 ， 它 们 生成 的 都 是 数字 信号 。 最 终 所 有 的 
波形 都 需要 被 又 加 起 来 。Mixer 就 是 做 这 种 又 加 的 模 
块 ， 其 本 质 上 是 一 个 加 法 器 ， 俗 称 混 音 器 。 用 于 控制 
振幅 值 的 寄存 器 的 信号 被 输送 给 振幅 调节 器 ， 该 调节 
器 根据 寄存 器 中 的 值 ， 向 DAC 输 送 对 应 的 控制 信号 从 
而 改变 对 应 通道 上 波形 的 振幅 。 还 有 一 个 包 络 生成 器 
(Envelop Generator) ， 这 个 模块 对 音符 持续 的 长 短 
和 强 弱 的 调节 起 到 了 关键 的 作用 。 

我 们 知道 ， 实 际 的 乐器 在 弹 奏 时 ， 其 发 出 的 声 
音 都 有 一 定 的 抑扬顿挫 、 强 弱 交 替 ， 比 如 拨 动 一 根 吉 
他 弦 ， 一 开始 音量 非常 大 ， 然 后 逐渐 降低 ， 其 响声 并 
不 是 夏 然而 止 的 ， 正 因 如 此 才能 体现 出 吉他 那 种 行 云 
流水 般 的 流畅 和 浪漫 。 而 数字 电路 的 非 通 即 断 ， 如 果 
吉他 的 声音 和 毅 鼓 一 样 三 三 的 话 ， 就 会 非常 怪异 。 当 
然 ， 有 些 音乐 演奏 中 确实 用 到 吉他 的 切 音 技巧 ， 让 声 
音 夏 然而 止 ， 然 后 再 放 开 回响 ， 让 声音 又 夏 然而 止 ， 
利用 这 种 方式 产生 一 张一弛 的 节奏 感 ， 比 如 羽泉 演唱 
的 《彩虹 》 配 乐 中 的 吉他 弹 奏 全 程 就 是 这 种 效果 。 为 
了 实现 上 述 抑扬顿挫 的 效果 ， 包 络 生成 器 可 以 按照 一 
定 参 数 生 成 一 个 跟随 时 间 而 变化 的 电 平 值 ， 将 这 个 电 
平 值 作为 调节 最 终 待 输出 信号 的 振幅 的 控制 信号 ， 将 
待 输 出 信号 的 振幅 ， 按 照 包 络 线 做 对 应 的 变化 ， 即 可 
产生 对 应 的 效果 。 

如 图 8-6 所 示 ， 一 般 来 讲 ， 多 数 乐器 在 弹 奏 时 ， 
一 开始 的 一 瞬间 振幅 会 达到 最 大 值 ， 然 后 迅速 下 降 到 
一 定 的 值 ， 这 个 值 会 持续 一 段 时 间 缓 慢 下 降 ， 最 后 消 
逝 。 这 整个 过 程 可 以 被 细 分 为 4 个 阶段 : Attack ( 初 
#1) 阶段 、Decay CFRE) 阶段 、Sustain (保持 ) 阶 
段 和 Release (消逝 ) 阶段 ， 俗 称 ADSR。 
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图 8-7 音乐 合成 器 
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8-6 包 络 生成 器 产生 的 包 络 电 平 线 

比如 ， 如 果 想 给 吉他 做 个 切 音效 果 ， 那 么 就 需要 
将 这 个 Envelop 波 形变 化 为 迅速 上 升 ， 迅 速 下 降 ， 并 
把 保持 阶段 和 释放 阶段 的 时 间 缩短 ， 这 样 就 可 以 了 。 
МРЕЖИ, ЖЕЉЕН, пик, 
那 就 成 了 钟 声 了 ， 感 觉 会 非常 怪异 。 而 对 于 风铃 声 ， 
则 其 必须 拉 长 才能 有 意境 ， 否 则 就 成 了 碎 玻 璃 声 了 ， 
让 人 听 了 浑身 发 麻 。 

为 什么 现场 演唱 ， 相 比 CD/ 录 音 带 中 的 演唱 大 
相 径 庭 ? 就 是 因为 后 者 其 实 是 有 后 期 处 理 的 ， 包 括 
拖 长 某 些 声音 、 变 弱 某 些 背 景 伴奏 。 而 对 于 现场 演 
奏 ， 由 于 多 数 时 候 没有 调 音 师 负 责 实时 处 理 ， 所 有 
乐器 声音 强度 都 一 样 ， 或 者 原本 不 该 强 的 却 过 强 过 
头 了 ， 所 以 现场 演奏 听 起 来 就 像 一 锅 粥 一 样 层次 感 
大 幅 降 低 ， 质 量 也 就 变 差 了 。 


上 位 程序 就 是 通过 写 入 控制 Envelop 各 阶段 电 平 
值 的 寄存 器 ， 来 控制 待 输出 波形 的 振幅 值 在 时 域 上 的 
持续 时 间 的 。 


8.1.2.2 ”音乐 合成 器 


在 PSG 芯 片 出 现 之 前 ， 集 成 电路 技术 还 不 发 达 、 
集成 度 不 高 ， 但 是 在 那 时 候 人 们 就 已 经 可 以 利用 多 个 
分 立 的 独立 芯片 模块 ， 搭 建 出 上 述 单 片 PSG 类 似 的 功 
能 了 ， 对 应 的 产品 被 称 为 合成 器 (Synthesizer) 。 如 
图 8-7 所 示 为 当时 众多 商用 产品 中 的 某 个 代表 ， 其 可 
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以 模拟 出 单调 音色 的 各 种 声调 ， 而 且 可 以 通过 其 上 的 
旋钮 来 琶 加 各 种 特效 进去 。 

如 图 8-8 所 示 为 该 仪器 内 部 的 模块 架构 图 。 其 中 
УСО (Voltage Controlled Oscillator， 压 控 振荡 器 ) 可 
以 根据 外 界 输入 的 不 同 电压 值 产生 不 同 频率 的 波形 。 
VCO 可 以 产生 多 种 波形 ， 比 如 锯齿 波 、 方 波 、 正 弦 
波 、 三 角 波 等 ， 可 以 通过 旋钮 /开关 来 切换 其 输出 的 
波形 ， 不 同 波形 产生 的 音色 是 不 同 的 (下 文中 可 以 扫 
码 收听 对 应 波形 的 音色 ) 。 而 键盘 的 每 个 按键 按 下 之 
后 会 产生 不 同 的 电压 值 ，VCO 便 会 产生 不 同 频率 的 波 
形 ， 从 而 体现 出 不 同 的 音调 。LFO (Low Frequency 
Oscillator， 低 频 振荡 器 ) 可 以 发 出 比 VCO 频 率 更 低 
的 波形 ， 比 如 周期 可 以 达到 秒 级 ， 它 的 存在 是 为 了 引 
入 更 多 声音 特效 。VCF (Voltage Controlled Filter, Ж 
控 滤 波 器 ) ， 其 可 以 根据 输入 的 电压 来 控制 器 滤波 行 
为 ， 比 如 实现 高 通 、 低 通 、 带 通 等 模式 ， 从 而 引入 更 
多 声音 特效 。 滤 波 之 后 的 波形 会 被 输入 VCA (Voltage 
Controlled Amplifier， 压 控 放 大 器 ) ， 对 波形 进行 振 
幅 放 大 从 而 驱动 喇叭 发 声 。EG (Envelop Generator) 
的 作用 与 上 一 节 介绍 的 相同 。 

如 图 8-9 所 示 为 合成 器 内 部 具体 电路 模块 架构 图 。 


该 合成 器 支持 VCO1 和 VCO2 的 两 路 波形 同时 输出 ， 
其 与 白 噪声 发 生 器 同时 接 入 到 Audio Mixer БИ 
加 操作 ， 然 后 输出 给 VCF 滤 波 ， 最 终 输出 给 VCA 模 块 
放大 输出 到 音箱 。 图 中 的 AD Gen 指 的 是 Attach/Decay 
Generator， 也 就 是 Envelop Generator， 出 于 成 本 考虑 ， 
其 只 提供 了 Attack 和 Decay 两 级 调节 ， 并 没有 提供 更 
精细 的 ADSR 四 级 调节 。Sample&Hold 模 块 的 作用 是 
对 其 输入 端 信号 的 电压 值 按照 一 定 频率 采样 下 来 之 后 
保持 一 段 时 间 并 持续 输出 ， 当 下 一 个 采样 到 来 之 后 则 
输出 新 采样 电压 值 ， 其 输出 的 波形 就 是 一 条 条 的 直 
线 ， 其 作用 是 为 了 实现 一 些 特殊 声效 ， 下 文中 你 会 了 
解 到 。 

图 中 的 锯齿 + 箭头 图 样 表示 该 处 物理 上 为 一 个 可 
调 旋钮 ， 可 以 调节 对 应 的 参数 。 比 如 可 以 调节 VCO 的 
波形 频率 ， 也 就 是 升降 调 ， 因 为 VCO 中 的 模拟 电路 
对 温度 比较 敏感 ， 温 度 会 影响 最 终 电路 输出 的 频率 ， 
所 以 导致 音准 出 现 问 题 ， 可 以 利用 Coarse 旋 钮 粗 调和 
Fine 旋 钮 精 调 。 

图 8-10 左 侧 所 示 为 VCO 模 块 的 输入 信号 和 输出 波 
形 。 输 入 端 共 有 4 个 ， 其 接收 的 都 是 电压 值 。 其 中 ， 
Exponential Control Voltage (Exp. cv) 输入 的 值 控制 
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图 8-8 早期 的 音乐 合成 器 内 部 的 模块 架构 图 
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图 8-9 合成 器 内 部 具体 电路 模块 架构 图 
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8-10 ”VCO 模块 的 输入 和 输出 以 及 对 应 波形 的 音调 收听 地 址 


着 VCO 输 出 不 同 的 音调 (本 书 第 5 章 曾 经 给 出 过 不 同 
音调 对 应 的 波形 频率 ) ， 该 电 平 值 每 增加 1 V, УСО 
输出 的 波形 就 提升 一 个 音调 ， 增 加 少 于 1 V 时 则 提升 
半 个 音调 。Linear Control Voltage (Lin. cv) 输入 的 电 
压 值 则 会 对 VCO 输 出 的 频率 呈 线 性 关系 ， 也 就 是 提升 
Lin.cv 的 值 ， 音 调 会 平滑 上 升 。PWM 脉 冲 宽度 调制 输 
入 的 电压 值 则 控制 着 VCO 所 输出 的 方 波 的 波峰 占 比 ， 


共有 三 档 比例 : 50%、10% 和 90%， 不 同 的 波形 体现 
出 来 的 音色 是 不 同 的 。Sync 输 入 电压 则 会 直接 导致 
VCO 输 出 的 Ramp 波 形 的 振幅 瞬间 降 为 0。 这 些 输入 器 
目的 都 是 在 对 VCO 输 出 波形 的 调制 ，Exp.cv 和 Lin.cv 
调制 的 是 声调 ， 其 他 调制 的 是 特效 。 图 8-10 右 侧 所 示 
为 各 种 波形 下 的 音色 收听 地 址 ， 大 家 可 以 扫 码 收听 。 
不 知道 大 家 收听 后 感觉 如 何 ， 冬 瓜 哥 感觉 ， 正 
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弦 波 和 三 角 波 在 低频 时 比较 细腻 ， 而 其 他 波形 在 低频 
时 就 表现 出 很 强 的 颗粒 感 ， 这 与 其 波峰 形状 有 很 大 关 
系 。 在 低频 时 ， 这 些 波形 表现 出 来 的 音效 就 是 俗称 的 
“交流 声 ”， 将 一 些 劣质 音响 的 声音 开 大 之 后 ， 你 就 
会 听 到 这 种 喻 喻 声 ， 其 没 被 过 滤 干 净 。 

如 图 8-11 所 示 为 连接 了 键盘 之 后 ， 向 VCO 的 Exp. 
cv 端 输入 每 个 按键 对 应 的 电压 值 从 而 触发 其 产生 不 同 
声调 的 音符 。 右 侧 扫 码 收听 对 应 的 音效 。 其 中 键盘 内 
部 可 以 实现 滑 音 和 连 音 ， 这 取决 于 弹 奏 技巧 。 并 且 提 
供 了 Glide Time 调 节 旋 钮 来 定制 滑 音 特效 。 滑 音 和 连 
音 体现 在 对 VCO 输 出 波形 频率 (也 就 是 声调 ) 的 调制 
而 产生 瞬间 的 连续 变化 。 
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如 图 8-12 所 示 为 将 低频 振荡 器 LTFO 生 成 的 三 角 波 
信号 输入 到 VCO 的 PWM 端 ， 并 将 VCO 切 换 到 输出 方 
波 。 这 就 意味 着 VCO 输 出 的 方 波 的 波峰 比例 ， 会 随 着 
PWM 端的 电压 值 而 不 停 变化 ， 最 终 体现 为 输出 信号 
的 音调 不 变 ， 但 是 音色 按照 LFO 的 三 角 波 的 变化 频率 
而 变化 。 难 以 言 表 ， 还 是 扫 码 收听 吧 。 听 完了 人 么 ? 是 
不 是 似曾相识 ， 在 一 些 锅炉 机 房 、 配 电机 房 里 ， 是 不 
是 曾经 听 到 过 这 种 忽 强 忽 弱 的 喻 喻 声 ? 这 也 是 为 什么 
要 设立 LFO 这 个 模块 让 其 输出 超 低 频 信 号 的 原因 ， 原 
来 是 为 了 用 其 输出 的 信号 去 调制 VCO 的 信号 产生 特种 
特效 。 

如 图 8-13 所 示 ， 用 另 一 个 VCO 产 生 的 高 频 方 波 信 
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图 8-12 用 LFO 的 三 角 波 信号 调制 VCO 的 方 波 信号 
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图 8-13 ”用 方 波 产生 Sync 信 号 同时 用 三 角 波 产 4 


变调 信号 


号 作为 右 侧 另 一 路 VCO 的 Sync 信号 ， 同 时 用 LFO 的 超 
低频 三 角 波 信号 输入 到 右 侧 VCO 的 音调 信号 。 会 发 生 
什么 ? 先 不 要 扫 码 ， 先 自己 分 析 : 首先 LFO 的 变调 信 
号 由 于 频率 非常 低 ， 所 以 音调 会 出 现 犹 如 刮 阵风 般 的 
忽 高 忽 低 ， 同 时 ， 由 于 Sync 信号 不 断 到 来 ， 而 且 频 率 
很 高 ， 每 次 Sync 时 振幅 会 变 为 0， 那 就 是 变 得 无 声 ， 
而 由 于 频率 很 高 ， 所 以 整个 声音 又 被 加 入 一 种 断 断 续 
续 的 效果 。 听 一 下 吧 。 这 个 音效 ， 感 觉 似曾相识 么 ? 
老 一 辈 经 常用 的 煤 壶 ， 知 道 吗 ， 其 壶 嘴 上 套 个 勺子 ， 
水 开 了 就 发 出 咳 咳 响 。 这 个 音效 大 概 就 是 这 个 效果 。 

如 图 8-14 所 示 为 将 白 噪 声 作为 原始 信号 输入 给 一 
个 压 控 调 幅 低 通 滤波 器 ， 该 滤波 器 可 以 根据 Exp.cv 端 
的 电压 值 调节 Input 端 信号 的 振幅 。 分 析 一 下 ， 忽 强 忽 
弱 的 白 噪 声 呈现 什么 效果 ? 风声 ! 

如 图 8-15 所 示 ， 将 LFO 生 成 的 三 角 波 信号 输送 给 
采样 保持 器 ， 后 者 会 将 前 者 的 连续 电 平 值 变 为 间断 的 
恒定 脉冲 。 那 么 用 这 种 脉冲 去 改变 VCO 输 出 声音 的 音 
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调 ， 会 产生 什么 奇怪 效果 呢 ? 哈哈 ! 

如 图 8-16 所 示 为 将 白 噪声 间断 化 处 理 之 后 ， 再 去 
影响 VCO 的 声调 。 哎 哟 ! 快 喝 杯 82 年 的 雪碧 压 压 惊 ! 

W? 要 这 么 多 声音 特效 作 甚 ? 问 出 这 个 问题 ， 证 
明 你 太 年 轻 ， 没 玩 过 上 世纪 的 游戏 。 但 是 你 可 能 听 过 
一 些 电 声 摇滚 乐 里 面 那些 乱七八糟 的 效果 ， 你 觉得 那 
些 是 用 真实 乐器 演奏 的 还 是 电子 合成 器 合成 的 呢 ? 

早期 的 电子 合成 器 以 及 PSG 芯 片 由 于 只 能 发 出 数 
量 较 少 的 音色 的 波形 ， 而 且 由 于 直接 使 用 方 波 、 锅 齿 
波 、 正 弦 波 等 比较 规整 的 波形 来 发 生 ， 所 以 其 声音 具 
有 强烈 的 “电子 味 ”， 非 常 干净 纯粹 ， 但 是 缺乏 次 级 
谐 波 的 润色 ， 听 上 去 很 不 自然 。 为 此 ， 人 们 通过 一 些 
其 他 方法 来 增加 这 些 谐 波 以 让 声音 变 得 更 悦耳 。 


8.1.2.3 ”FM 合成 及 波 表 合 成 


增加 谐 波 可 以 怎么 实现 ? 在 第 1 章 中 就 介绍 过 模 
拟 信号 方面 的 知识 ， 只 要 向 基 波 中 从 加 更 高 频 分 量 的 
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次 级 谐 波 ， 就 可 以 模拟 出 不 同音 色 。 其 实 VCO 生 成 
的 三 角 波 、 方 波 等 ， 也 都 是 在 正弦 波 基础 上 通过 模拟 
电路 而 生成 的 。 只 不 过 ， 现 实 中 的 物理 乐器 是 无 法 发 
出 纯粹 单一 正弦 波 的 ， 也 不 可 能 有 天 然 物理 乐器 能 发 
出 方 波 和 三 角 波 ， 它 们 发 出 的 声波 都 到 加 了 大 量 高 频 
谐 波 成 分 ， 但 是 每 种 乐器 的 谐 波 成 分 又 各 不 相同 。 那 
么 ， 怎 么 获取 到 每 种 乐器 、 每 个 音符 的 谐 波 信息 呢 ? 

实际 上 ， 人 们 先 对 乐器 声音 进行 录音 采集 ， 然 
后 ， 有 两 种 方法 可 以 保存 下 这 个 音符 的 信息 。 第 一 种 
方法 是 ， 将 采集 到 的 声波 在 频 域 上 做 侍 里 叶 变换 分 解 
为 基 波 和 有 限 多 个 谐 波 〈 谐 波 数量 越 多 ， 模 拟 得 越 真 


控制 响 度 随 时 间 的 变化 。 程 序 对 乐谱 中 的 每 个 音符 不 
停 地 做 这 种 处 理 ， 然 后 将 对 应 的 信息 写 入 到 对 应 电路 
的 前 端 寄存 器 中 ， 就 可 以 连续 播放 出 音乐 。 只 要 电 
路 中 安置 多 套 上 述 部 件 ， 就 可 以 形成 多 个 发 声 通 道 
(Track, H) ， 从 而 形成 和 弦 ， 就 可 以 模拟 出 多 乐 
器 多 重奏 的 效果 。 

所 以 ， 对 于 电子 音乐 的 演奏 ， 前 端的 程序 非常 重 
要 ， 电 路 并 不 会 自动 演奏 ， 而 是 要 靠 程序 告诉 它 如 何 
演奏 。 那 么 ， 程 序 该 用 什么 方式 、 格 式 将 要 演奏 的 乐 
谱 保存 下 来 呢 ? 这 里 势必 要 形成 一 个 格式 ， 从 而 将 乐 
谱 信息 按照 这 个 标准 写 入 文件 中 ， 并 为 该 文件 起 一 个 


实 ) ， 然 后 振幅 按照 比例 ， 记 录 基 波 和 谐 波 〈 谐 波 有 
无 限 多 个 ， 只 记录 影响 最 大 的 一 部 分 ) 的 频率 、 振 
幅 。 第 二 种 方法 是 ， 直 接 对 采集 到 的 波形 在 时 域 上 进 
行 精度 足够 高 的 采样 和 数字 量化 ， 将 量化 值 记 录 下 
来 。 后 一 种 方法 根本 不 管 这 个 波形 在 频 域 上 是 由 多 少 
个 波 全 加 的 ， 而 是 简单 粗暴 地 记录 时 域 上 的 振幅 信 
息 。 这 两 种 方式 ， 前 一 种 像 是 学 院 派 ， 后 一 种 则 是 市 
井 派 野 路 子 〈 往 往 野 路 子 更 有 效 ， 是 的 ) 。 

历史 上 ， 人 们 先是 按照 学 院 派 做 法 来 推出 了 对 
应 的 产品 。 试 想 一 下 ， 某 个 乐器 的 某 个 音调 由 一 个 基 
波 和 近似 50 个 谐 波 琶 加 而 成 ， 那 么 是 不 是 必须 准备 50 
套 正弦 波 发 生 器 ? 这 个 成 本 太 高 了 ! 而 且 每 套 发 生 器 
必须 可 以 产生 不 同 频率 的 波形 ， 因 为 不 同 乐 器 不 同音 
调 的 谐 波 的 频率 也 不 同 ， 近 似 模拟 所 需要 的 谐 波 数量 
也 不 同 ，50 个 也 只 能 是 折 中 的 数量 。 不 过 ， 在 20 世 纪 
70 年 代 ， 国 外 科学 家 发 明了 利用 一 个 波形 发 生 器 去 调 
制 另 一 个 波形 发 生 器 从 而 引入 近似 的 不 同 成 分 谐 波 的 
方法 ， 这 样 只 需要 两 个 波形 发 生 器 级 联 就 可 以 了 ， 但 
是 ， 其 调制 出 来 的 效果 由 于 太 过 近似 ， 还 是 无 法 更 加 
精确 模拟 乐器 声音 本 来 的 频谱 成 分 。 这 种 模拟 方式 被 
称 为 FM (Frequency Modulation， 调 频 ) 合成 。 想 要 
用 FM 合成 方法 来 演奏 音乐 的 话 ， 必 须 将 音乐 的 乐谱 
先 翻译 成 每 个 音符 的 音调 、 音 色 、 长 短 、 响 度 ， 将 音 
调 翻 译 成 基 波 频率 作用 到 基 波 发 生 器 上 ， 再 将 音色 翻 
译 成 调制 波 的 各 种 参数 作用 到 调制 波 上 ， 电 路 用 调制 
波 来 调制 基 波 ， 最 后 通过 发 声 时 间 来 控制 音符 发 出 的 
长 短 ， 用 放大 器 来 控制 发 声 的 振幅 ， 用 包 络 生成 器 来 


图 8-17 电 吉 他 上 的 拾 音 器 


对 应 的 扩展 名 。 这 方面 的 标准 有 多 个 ， 比 如 MIDI、 
FM 等 。 目 前 最 流行 的 当 属 MIDI (Musical Instrument 
Digital Interface， 乐 器 数字 接口 ) 格式 。 然 而 ， 程 序 
首先 需要 解析 MIDI 格 式 的 乐谱 文件 ， 然 后 将 其 中 内 容 
翻译 成 与 电路 之 间 的 沟通 信息 信号 ， 后 者 可 以 有 各 自 
不 同 的 实现 ， 但 是 前 者 则 必须 为 标准 方式 ， 否 则 就 无 
法 标准 化 推行 了 。 

演奏 程序 可 以 用 计算 机 代码 来 辅助 实现 ， 也 可 
以 干脆 就 用 人 脑 人 手 来 实现 ， 比 如 用 电 吉他 、 电 钢琴 
等 ， 人 手 拨 动 其 上 的 琴 弦 或 者 按 动 按键 ， 每 次 拨 动 / 按 
键 只 能 发 出 一 个 音符 。 你 通过 刻苦 的 练习 ， 终 于 掌握 
了 某 首 曲子 的 全 部 按键 / 拨 动 顺序 和 技巧 ， 将 这 段 “ 程 
序 ” 通 过 键盘 / 琴 弦 输入 到 电路 ， 从 而 演奏 出 对 应 的 音 
乐 。 而 电 钢琴 和 电 吉 他 根本 不 需要 庞大 的 共鸣 腔 体 ， 
因为 此 时 它们 并 不 依靠 物理 发 声 ， 而 是 靠 电脑 运算 来 
模拟 发 声 。 那 么 ， 这 些 电 子 乐器 是 如 何 将 琴 弦 的 振动 
和 按键 翻译 成 对 应 音调 、 长 短 和 响 度 信号 的 呢 ? 电 吉 
他 上 在 琴 弦 下 方 有 一 个 拾 音 器 ， 如 图 8-17 所 示 。 其 原 
理 是 通过 电磁 铁 来 感受 琴 弦 的 振动 ， 琴 弦 切 制 了 磁铁 
上 方 的 磁 感 线 ， 从 而 产生 了 按照 对 应 频率 、 强 度 变化 
的 电流 ， 再 用 电路 将 这 些 电流 翻译 成 音调 、 长 度 和 响 
度 的 值 输入 给 吉他 内 部 的 合成 器 ， 合 成 器 加 入 一 些 基 
本 的 效果 比如 回响 、 共 鸣 等 ， 来 模拟 木 吉 他 的 共鸣 腔 
效果 ， 然 后 输出 最 终 的 模拟 信号 给 功放 放大 后 输出 到 
音响 发 声 。 当 然 ， 一 般 吉 他 内 部 不 会 带 有 较 强 功能 的 
合成 器 ， 所 以 输出 的 音色 比较 单调 ， 如 果 想 要 更 多 的 
音色 和 后 期 处 理 ， 需 要 另外 制备 独立 合成 器 /效果 器 。 


有 些 高 级 产品 利用 两 组 拾 音 器 产生 方向 相反 、 大 小 相 
等 的 两 路 电流 ， 从 而 防止 各 种 电磁 干扰 ， 这 就 与 第 6 
章 中 介绍 的 高 速 通信 PHY 底 层 的 差分 信号 的 本 质 是 类 
似 的 。 

后 来 ， 人 们 采用 了 野 路 子 ， 直 接 对 各 种 乐器 的 声 
波 采 样 并 保存 采样 值 ， 采 样 只 要 精度 够 高 ， 就 可 以 还 
原 出 原始 波形 。 采 样 时 只 需要 针对 乐器 发 出 的 每 个 音 
调 的 一 个 大 周期 采样 即 可 。 所 有 乐器 的 所 有 音调 的 采 
样 值 被 保存 在 一 张 表 中 ， 这 个 表 被 称 为 波 表 。 波 表 保 
存在 合成 电路 旁边 一 片 ROM 存 储 器 中 ， 当 然 也 可 以 保 
存在 计算 机 硬盘 中 ， 前 者 被 称 为 硬 波 表 ， 后 者 则 为 软 
波 表 。 早 期 ， 由 于 存储 器 的 成 本 非常 高 ， 人 们 只 能 降 
低 采 样 精度 来 节省 波 表 占 用 空间 ， 带 来 的 损失 则 是 音 
质 不 高 ， 后 来 一 些 合成 器 逐渐 采用 大 容量 存储 器 ， 随 
之 而 来 的 音质 也 就 非常 高 了 。 有 些 合成 器 可 以 在 运行 
时 实时 地 通过 PCI 接 口 直接 访问 被 载 入 Host 端 主 存 中 
的 波 表 信息 ， 从 而 节省 卡 上 的 ROM。 

现实 中 的 乐器 发 出 音调 的 频率 并 不 是 恒定 的 。 比 
如 你 拨 动 一 根 吉他 弦 ， 它 的 振动 频率 /音调 可 能 是 随 着 
时 间 有 小 幅 变 化 的 ， 也 就 是 说 其 在 整个 发 声 周 期 内 的 
波形 是 随 着 时 间 变 化 的 ， 这 叫 作 时 变 系统 。 反 之 ， 频 
率 恒定 不 随时 间 变 化 的 系统 被 称 为 时 不 变 系统 。 正 是 
因为 这 种 时 变 ， 导 致 真实 乐器 的 声音 充满 了 更 多 的 胺 
胱 音色 ， 而 上 文中 利用 电子 方式 模拟 出 来 的 信号 是 时 
不 变 的 ， 音 色 也 就 显得 生硬 纯粹 ， 容 易 让 人 产生 听觉 
疲劳 。 这 与 我 们 在 第 6 章 介绍 利用 扰 码 降低 EMI 电 磁 
辐射 的 道理 是 类 似 的 。 显 然 ， 要 想 让 声音 更 加 饱满 ， 
也 需要 对 声音 信号 加 入 一 些 “ 扰 码 ”。 实 际 中 ， 人 们 
对 录制 下 来 的 乐器 波形 进行 了 仔细 分 析 ， 并 总 结 出 一 
些 规律 ， 然 后 将 每 个 波形 进行 衍生 ， 衍 生出 多 个 子 波 
形 ， 也 放置 到 波 表 中 。 在 合成 时 ， 电 路 根据 时 间 的 变 
化 ， 将 这 些 子 波形 按照 一 定 的 振幅 县 加 到 主 波形 上 
去 ， 从 而 实现 对 音色 的 处 理 。 

图 8-18 所 示 为 前 人 发 明 的 两 种 润色 方式 。 左 边 这 
种 方式 是 直接 将 所 有 子 波形 同时 友 加 到 主 波形 上 去 。 
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子 波 形 的 幅度 通过 包 络 生成 器 生成 的 包 络 电 平 来 控 
制 ， 比 如 音符 一 开始 ， 肥 加 较 多 的 主 波形 成 分 ， 随 着 
时 间 推 进 ， 主 波形 成 分 的 振幅 越 来 越 小 ， 而 其 他 波形 
成 分 的 振幅 越 来 越 大 ， 这 就 能 体现 出 乐器 的 这 种 时 变 
效果 了 。 而 图 中 右 侧 所 示 的 方法 ， 包 络 生成 器 生成 的 
是 三 角 波 ， 其 边沿 增加 陡峭 ， 可 以 看 到 图 中 所 示 的 包 
络 变化 ， 随 着 时 间 推 进 ， 波 峰 向 后 推移 ， 由 于 三 角 波 
的 边沿 更 陡峭 ， 所 以 上 一 个 波形 对 下 一 个 波形 的 影响 
就 更 小 了 ， 那 就 意味 着 整个 音符 的 演奏 过 程 中 ， 基 本 
上 是 这 一 整 列 波形 依次 被 输出 一 段 时 间 。 相 比 之 下 ， 
在 左 侧 的 方式 下 ， 上 一 个 波形 对 下 一 个 波形 的 影响 是 
缓慢 消除 的 《因为 包 络 生成 器 生成 的 用 于 控制 对 应 子 
波形 振幅 的 波形 为 圆滑 的 类 似 正弦 波 ， 并 不 像 三 角 波 
那样 高 低 分 明 ) o 
提示 > 

扰 码 、 波 表 子 波 登 加 ， 你 可 以 体会 到 其 本 质 的 
相似 性 。 其 实 还 有 一 个 地 方 也 非常 类 似 ， 那 就 是 在 
第 6 章 我 们 提 到 过 的 高 速 信号 通信 链 路 底层 的 Serdes 
模块 中 存在 的 均衡 器 模块 ， 其 为 了 消除 码 间 串扰 ， 
会 对 波形 做 一 些 整形 ， 其 也 是 通过 登 加 多 个 子 波形 
到 当前 波形 上 从 而 实现 消除 干扰 的 ， 其 本 质 与 上 述 
过 程 类 似 。 


事实 证 明 ， 市 井 派 的 波 表 合 成 方法 输出 的 音色 更 
好 。FM 合 成 方式 无 法 很 好 地 处 理 这 种 时 变 ， 所 以 其 
模拟 出 来 的 音质 相 比 波 表 合成 法 而 言 就 有 很 大 欠缺 。 
利用 波 表 合 成 音乐 的 过 程 ， 同 样 是 上 位 程序 将 乐谱 比 
如 MIDI 格 式 的 文件 ， 进 行 解析 ， 然 后 生成 对 应 的 控制 
和 参数 信号 ， 驱 动 合成 电路 进行 查 表 取出 对 应 的 波形 
然后 进行 合成 ， 这 样 可 以 生成 连续 演奏 的 音乐 。 抑 或 
者 手动 利用 电子 乐器 弹 奏 生成 ， 生 成 的 音乐 的 流畅 性 
就 完全 取决 于 演奏 者 的 技巧 了 。 

在 具体 实现 上 ，FM 和 波 表 这 两 种 模式 的 差异 体 
现在 合成 器 内 部 的 VCO 模 块 内 部 的 实现 变 得 不 同 。 


wavetable 


envelope scaler 


summer 


output 


图 8-18 ”通过 又 加 子 波形 来 润色 音色 


3 大话 计算 机 一 一 计算 机 系统 底 


屋 架 构 原 理 极限 剖析 


但 是 VCO 外 部 依然 需要 LFO、Sample&Hold 等 模块 ， 
对 VCO 输 出 的 声音 进行 后 期 效果 处 理 。 外 围 这 些 增 
效 部 分 可 以 单独 称 为 效果 器 ， 而 VCO 可 以 单独 称 为 
合成 器 ， 不 过 人 们 还 是 习惯 将 这 一 整套 系统 统称 为 合 
成 器 。 

目前 ， 利 用 波 表 合成 模拟 出 来 的 声乐 已 经 可 以 达 
到 以 假 乱 真 的 程度 。 如 图 8-19 所 示 ， 左 侧 为 传统 的 各 
种 物理 乐器 ， 中 间 所 示 为 电子 乐器 。 各 种 电子 乐器 层 
出 不 穷 ， 钢 琴 、 吉 他 自 不 用 说 ， 就 连 小 提琴 和 萨克斯 
都 可 以 被 电子 化 。 至 于 电 萨 克 斯 等 电子 管状 乐器 是 如 
何 将 吹 气 转换 为 电流 信号 的 ， 有 待 大 家 自行 研究 。 现 
代 的 专业 录音 棚 中 也 摆 满 了 各 种 合成 器 ， 以 在 歌曲 中 
ч ызга чеш ны 效果 。 有 
时 候 为 了 节省 成 本 ， 能 用 电子 模拟 的 ， 绝 不 用 真 
人 演奏 。 


提示 >» 

МОЖЕ PRERA, КЖ БИТА 
台灯 光 控 制 ， 也 就 是 用 来 描述 灯光 的 颜色 、 亮 度 、 
持续 时 间 等 。 其 实 ， 声 光电 等 这 些 信 号 ， 本 质 上 是 
相同 的 。MIDI 其 至 可 以 被 用 来 在 4D/5D 影 院 中 控制 
座 椅 的 振动 模式 。 


ТЕ 扫 码 收听 


8.1.3 ”声卡 发 展 史 及 架构 简 析 


上 述 合 成 器 和 电子 乐器 ， 在 20 世 纪 中 期 晶体 管 大 
行 其 道 之 后 就 逐渐 出 现 了 。 姬 眼 间 到 了 现代 ， 数 字 计 
算 机 大 行 其 道 。 芯 片 越 做 越 小 ， 很 自然 的 ， 人 们 就 在 
想 能 否 把 合成 器 做 成 一 个 计算 机 IO 设备 ， 比 如 ， 一 
张 PCIPCIE 卡 的 形式 ， 或 者 一 个 USB 设 备 的 形式 ， 就 
叫 它 声 卡 吧 。 这 样 ， 计 算 机 程序 可 以 直接 解析 MIDI 文 
件 并 且 输 出 到 声卡 ， 由 后 者 合成 然后 输出 声音 。 由 Ad 
Lib 公 司 在 1987 年 正式 推出 的 AdLib 声 卡 是 最 早期 的 声 
卡 之 一 ， 如 图 8-20 所 示 。 

该 声卡 的 主 芯 片 〈 最 大 的 那 块 ) 采用 雅马哈 公司 
在 1985 年 生产 的 YM3812 型 PSG 芯 片 。 右 侧 旋钮 可 以 
直接 调节 音量 。 该 声卡 与 系统 前 端 采 用 ISA《〈 比 PCI 更 
古老 的 一 种 访 存 式 IO 总 线 ) 总 线 连接 。 其 只 支持 单 
声 道 输出 ， 可 以 看 到 其 只 有 一 个 模拟 音频 信号 输出 端 
口 〈 蓝 色 的 旋钮 调节 器 下 方 ) 。 

其 功能 非常 单一 ， 其 本 质 就 是 将 一 片 PSG 通 过 
ISA 前 端 总 线 接 入 到 系统 中 罢了 。 该 PSG 支 持 9 个 和 弦 
通道 ， 可 以 同时 模拟 9 种 音色 并 同时 输出 。 其 合成 方 
式 为 上 文中 所 述 的 FM 合成 。 其 只 能 支持 播放 其 自身 
的 特殊 乐谱 文件 。 而 像 我 们 耳熟能详 的 MP3 或 者 WAV 


图 8-20 ”早期 知名 的 AdLib 声 卡 


文件 ， 或 者 MIDI 格 式 的 文件 ， 其 并 不 支持 。 我 们 下 
文中 会 介绍 当前 的 MP3/WAV 音 频 文件 是 怎么 被 播 
放 的 。 

1988 年 ，AdLib 与 游戏 公司 Sierra On-Line( 雪 乐 
P 谈 成 了 紧密 商业 合作 关系 ， 后 者 承诺 在 其 开发 的 
王 密 使 4》 解 密 游戏 中 支持 AdLib 的 声卡 ， 将 该 声 
nde 声卡 选择 兼容 列表 中 的 第 
一 位 给 消费 者 以 暗示 ， 并 且 随 游戏 捆绑 销售 AdLib 声 
卡 。 至 此 ，AdLib 声 卡 名 声 大 噪 ， 如 图 8-21 所 示 。 

同期 其 实 也 存在 其 他 厂商 的 声卡 ， 比 如 在 该 游 
戏 安装 界面 声卡 选择 列表 中 排名 第 二 的 Creative A 
新 ) 公司 的 一 款 与 AdLib 在 1987 年 同年 推出 的 Creative 
Music System (CMS，1988 年 改名 为 Game Blaster) 
声卡 ， 该 声卡 如 图 8-22 左 侧 所 示 。 该 声卡 的 特性 相 比 
AdLib 声 卡 来 讲 的 一 个 硬 伤 是 不 支持 FM 合成 。 

其 利用 两 片 〈 图 中 右上 角 ) Philips SAA1099 型 
PSG 芯 片 支持 了 12 通 道 和 弦 〈 每 片 6 通道 ) ， 该 芯片 
支持 双 声 道 〈 俗 称 立体 声 ) 输出 ， 通 过 程序 可 以 选择 
将 哪 一 路 声音 输出 到 哪 一 路 音箱 ， 从 而 形成 左右 分 离 
的 立体 声效 果 。 但 是 Philips 的 这 款 芯片 并 不 支持 FM 合 
成 ， 所 以 其 音色 只 是 非常 单调 的 电子 音 ， 而 且 其 只 支 
持 方 波 一 种 波形 ， 虽 然 可 以 通过 调制 实现 各 种 效果 ， 
但 是 方 波 生成 的 声音 ， 我 们 在 前 文中 已 经 体验 过 了 ， 


低频 时 会 有 颗粒 感 。 不 比较 不 知 好 坏 ， 听 习惯 
ТЕЗЕ, Zà 响 发 烧 友 的 翡 催 之 处 ， 今 
天 听 这 样 好 ， 明 天 听 着 那样 其 实 也 觉得 好 。 可 以 扫描 


图 8-20 和 图 8-22 左 下 角 的 二 维 码 来 收听 FM 合成 音乐 与 
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单 音色 基 波 + 简单 效果 调制 音乐 的 区 别 。 而 AdLib 的 
声卡 上 的 雅马哈 YM3812 是 支持 FM 合成 的 。 所 以 创新 


在 其 后 一 代 声卡 中 果断 也 转向 了 使 用 YM3812， 其 目 
的 除了 实现 更 好 的 音色 之 外 ， 还 有 就 是 为 了 直接 使 用 


AdLib 的 驱动 程序 从 而 做 到 无 缝 兼容 ， 
额 。 采 用 的 芯片 相同 ， 
程序 也 就 可 以 兼容 。 
次 年 ， 也 就 是 1989 年 ， 创 新 公司 推出 了 一 款 同样 
利用 YM3812 芯 片 方案 的 声卡 ， 名 为 Sound Blaster， 
如 图 8-22 右 侧 所 示 。 该 声卡 除了 支持 AdLib 声 卡 的 全 
部 功能 外 ， 还 增加 了 一 个 数字 处 理 芯 片 ( 卡 上 最 大 
的 那 片 ) ， 名 为 Digital Sound Processor (注意 ， 并 非 
Digital Processor) 。 其 作用 是 可 ma s 
端的 数字 音频 流 PCM (Pulse Cod 
я 取 到 声卡 中 然后 进 


以 抢夺 市 场 份 
芯片 上 的 寄存 器 就 相同 ， 驱 动 


照 一 定 的 精度 和 采样 频率 对 模拟 信 
号 进行 采样 、 量 化 之 后 生成 的 裸 样 点 数据 。 
m= 


MP3、WMV、FLAC 等 音频 格式 ， 其 实 都 是 经 

过 各 种 压缩 运算 之 后 的 PCM 数 据 流 。PCM 的 尺寸 
很 大 ， 一 首 4 分 钟 的 曲子 如 果 按 照 44.1 kKHz、16 位 
采样 精度 的 话 ，PCM 数 据 流 会 有 大 概 40 多 兆 字 节 ， 
而 MP3 则 可 以 压缩 成 十 分 之 一 大 小 ， 当 然 ， 会 损失 
一 部 分 音频 信息 。Host 端 在 播放 这 些 音频 文件 时 ， 
对 应 的 播放 器 需要 先 对 这 些 以 音频 格式 解压 缩 ， 由 
于 音频 压缩 格式 众多 ， 所 以 一 款 播放 器 支持 多 少 格 


CREATIVE LABS. INC 
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式 ， 就 看 它 内 部 集成 了 多 少 个 解码 器 程序 了 。 这 些 
解码 器 解压 对 应 的 音频 文件 生成 对 应 的 原始 PCM 码 
流 ， 然 后 将 PCM 码 流 发 送 给 声卡 进行 数 模 转 换 从 
而 发 声 。 播 放 器 是 一 个 总 控 角 色 ， 其 为 用 户 展现 出 
一 个 操作 界面 和 各 种 图 形 效果 ， 底 层 其 实 是 调用 各 
种 解码 器 生成 PCM 数 据 流 ， 然 后 传送 给 专门 的 声音 
协议 栈 程序 ， 最 后 通过 声卡 驱动 程序 传送 给 声卡 。 
关于 Host 端 的 声音 处 理 协议 栈 详 见 下 文 介绍 。 这 些 
音乐 文件 的 头 部 都 会 按照 对 应 的 格式 给 出 该 乐曲 的 
采样 率 和 采样 精度 ， 这 样 ， 播 放 器 根据 这 些 信息 才 
能 够 决定 以 对 应 的 参数 将 PCM 数 据 流传 递 给 后 端 角 
色 ， 声 卡 也 会 按照 对 应 的 参数 去 配置 DAC 从 而 按照 
对 应 速率 回放 。 


其 实 我 们 之 前 一 直 都 忽略 了 一 个 问题 ， 那 就 是 声 
卡 并 不 一 定 必须 包含 合成 器 。 如 果 Host 端 可 以 直接 把 
PCM 数 据 流 发 送 给 声卡 的 话 ， 那 么 声卡 中 仅 需 包含 一 
个 用 于 将 PCM 样 点 值 转化 为 模拟 信号 电 平 值 的 DAC 
模块 即 可 ， 当 然 ， 还 得 包含 与 Host 端 相连 接 的 IO 接 
口 控制 器 模块 。 如 图 8-23 所 示 ， 可 以 说 是 历史 上 出 现 
过 的 最 为 简单 的 用 于 PC 的 “声卡 ”一 一 Covox Speech 
Thing， 其 由 Covox 公 司 于 1986 年 推出 。 其 前 端 采 用 
LPT 并 行 接口 与 Host 端 相连 接收 8 位 采样 精度 的 PCM 
数据 ， 然 后 输送 给 它 内 部 的 DAC 模 块 。LPT 接 口 早已 
被 淘汰 ， 其 当时 主要 用 于 连接 打印 机 ， 所 以 说 这 款 声 
卡 非 常 奇 范 。Host 端 的 程序 只 需要 将 PCM 数 据 流 发 送 
到 LPT 并 口 ， 该 声卡 上 连接 着 的 音箱 就 可 以 发 出 声音 
了 ， 程 序 以 什么 样 的 速率 向 并 口上 输出 数据 ， 那 么 其 
就 以 什么 速率 播放 这 些 数 据 。 在 当时 ， 这 款 极 简 声卡 
售 价 在 70 美 元 左右 ， 而 同时 代 的 支持 合成 器 的 声卡 都 
在 200 美 元 上 下 。 图 8-23 右 侧 为 其 拆 机 图 ， 可 以 看 到 
只 有 一 片 DAC。 


Control Bus 


图 8-23 


最 原始 形态 的 数字 回放 声卡 Covox Speech Thing 


声卡 如 果 要 支持 录音 的 话 ， 还 需要 加 上 一 块 
ADC， 如 果 要 与 Host 端 用 更 方便 、 常 用 的 IO 端口 相 
连接 的 话 ， 还 需要 加 上 一 些 用 于 控制 从 Host 端 取 数 据 
然后 输送 到 DAC， 以 及 把 ADC 产 生 的 采样 量化 数据 
写 回 到 Host 端 RAM 的 外 围 电路 。 如 图 8-24 所 示 是 一 
款 极 简单 的 支持 录放 音 的 USB 接 口 的 声卡 的 功能 架构 
图 。 其 前 端 采用 USB 接 口 与 Host 连 接 。 内 部 含有 一 个 
MCU (Micro Control Unit， 微 控制 单元 ) ， 具 体型 号 
为 Intel 8051 〈 也 就 是 俗称 的 51 单 片 机 ， 直 到 如 今 依然 
被 广泛 用 于 比如 程控 电子 玩具 等 产品 中 ) ， 其 本 质 上 
是 一 个 可 以 运行 程序 代码 的 功能 非常 简单 的 小 CPU 核 
心 ， 成 本 相当 低 〈 两 三 块 人 民 币 每 片 ) 。 其 上 运行 的 
固件 程序 主要 负责 操纵 USB 接 口 控制 器 从 Host 端 取 数 
据 或 者 发 送 数据 ， 以 及 负责 向 DAC 发 送 数字 音频 采样 
点 量化 数据 流 ， 或 者 从 ADC 接 收 量 化 数据 流 。 

Sound Blaster 声 卡 的 这 片 DSP 芯 片 ， 就 是 Intel 
8051 CPU。 其 支持 8 位 采样 精度 、23 kHz 采样 频率 
的 单 声 道 PCM 数 据 流 的 回放 ， 以 及 可 以 用 8 位 采样 
精度 +12 KHz 采 样 频率 进行 录音 操作 。DSP 芯 片 中 的 
固件 还 可 以 对 采样 到 的 数据 进行 ADPCM (Adaptive 
Differential Pulse-Code Modulation， 自 适应 差分 脉冲 
调制 ) 编码 ， 其 实 就 是 对 PCM 编 码 的 一 种 压缩 。 此 
外 ， 其 固件 还 支持 解码 MIDI 乐 谱 流 ， 从 而 根据 乐谱 利 
用 YM3812 合 成 器 奏 乐 。 


Microphone In 


Speaker/ 
Heaphone 


8-24 某 USB 声 卡 功能 架构 


而 早 在 1984 年 ，Roland 公 司 就 推出 了 专门 接收 
MIDI 乐 谱 流 奏 乐 的 声卡 MPU-104 (Midi Processing 
Unit) ， 如 图 8-25 所 示 。 但 是 其 只 支持 MIDI 乐 谱 流 的 
输入 ，MIDI 乐 谱 流 可 以 从 Host 端 由 程序 连续 输入 从 而 
连续 奏 乐 ， 也 可 以 从 外 置 的 电子 乐器 上 利用 特制 的 串 
行 接口 ( 卡 右 侧面 ) 输入 。MPU-401 的 串 行 接口 在 传 
输 MIDI 乐 谱 流 时 在 物理 层 和 链 路 层 的 信号 形式 在 当时 
已 经 成 为 MIDI 串 口 的 事实 标准 ， 一 些 专业 的 电子 乐器 
都 采用 MPU-401 的 串口 信号 格式 传输 MIDI 乐 谱 流 。 

Sound Blaster 1.0 声 卡 提供 了 一 个 Game Рогі, iZ 
端口 可 用 于 连接 游戏 手柄 / 摇 杆 从 而 接收 手柄 上 的 各 种 
按键 / 摇 杆 信号 ， 并 向 Host 发 起 中 断 从 而 响应 按键 ， 同 
时 也 可 以 用 于 连接 电子 乐器 从 而 接收 MIDI 乐 谱 流 然后 


利用 内 部 合成 器 奏 乐 。 但 是 ， 这 个 Game Port 在 物理 上 
是 一 个 15 针 串口 ， 其 利用 了 其 中 的 两 针 用 来 传输 MIDI 
流 ， 而 且 这 两 针 的 信号 格式 与 MPU-401 不 兼容 。 

可 以 看 到 ，Sound Blaster 1.0 声 卡 的 功能 如 此 强 
悍 ， 其 支持 PCM 数 据 流 回 放 、 支 持 FM 合成 奏 乐 、 支 
持 MIDI 乐 谱 流 格 式 、 支 持 Game Port 可 连接 手柄 和 
而 且 ， 之 


MIDI 电 子 乐 器 、 支 持 立 体 声 、 支 持 录音 。 
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前 能 利用 AdLib 声 卡 发 声 的 游戏 ， 也 能 用 Sound Blaster 
1.0 发 声 〈 如 图 8-26 所 示 ) ， 其 价格 还 比 AdLib 声 卡 低 
一 些 。 所 以 ， 其 一 发 而 不 可 收 ， 彻 底 赢 得 了 市 场 ， 
“Sound Blaster (888) ”这 个 词 成 了 声卡 的 代 名 
词 ， 人 们 直接 将 “声卡 ”改称 “ 声 霸 卡 ”。 一 直到 今 
天 ，PC 独 立 声卡 市 场 依然 几乎 都 是 创新 公司 的 产品 。 

AdLib 在 1992 年 推出 了 新 一 代 声 卡 AdLib Gold, 
合成 器 部 分 采用 了 YM3812 的 升级 版 YMF262， 其 支持 
18 和 弦 和 4 声 道 输出 ， 以 及 降低 了 Host 端 访问 其 寄存 
器 时 的 响应 时 间 。 如 图 8-27 所 示 为 AdLib 声 卡 及 其 主 
控制 器 和 YMF262 芯 片 ， 其 主 控 芯 片 也 支持 PCM 数 据 
流 回 放 。 其 还 支持 环绕 声效 果 处 理 模块 ， 不 过 该 模块 
作为 一 个 可 选 的 子 卡 模块 ， 购 买 后 插入 到 母 卡 的 特定 
插 槽 上 即 可 。 另 外 ， 它 也 支持 了 Game Port, 

不 过 ，AdLib Gold 的 推出 并 没有 改变 AdLib 的 命 
运 ， 由 于 Sound Blaster 已 经 彻底 扬名 立 万 并 占领 了 市 
场 ， 再 加 上 生产 AdLib Gold 声 卡 时 ，AdLib 遇 到 了 一 
些 技术 问题 ， 导 致 芯片 信号 出 现 不 稳定 问题 ， 这 拖 慢 
了 其 推出 产品 的 速度 。 注 意 到 ，AdLib 和 创新 这 两 家 
公司 的 产品 ， 在 短 短 一 两 年 之 内 便 出 现 了 戏剧 性 的 剧 


ВМ PS/1 ñadio/Jogstick Card 
Í IBM РС or Compatible Internal Speaker 
Í General MIDI Sound Driver 
1 = supported by your system 


Use 1, 1 and ENTER to select. ESC to go back. Р for help 


图 8-26 游戏 兼容 列表 体现 出 的 变化 


图 8-27 AdLib Gold 声 卡 
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情 翻转 ， 这 最 终 导 致 1992 年 AdLib 申 请 破产 。 可 见 那 
个 时 代 是 计算 机 发 展 的 黄金 时 代 ， 充 满 了 各 种 机 会 和 
挑战 ， 因 为 各 种 标准 、 生 态 都 还 没有 成 型 ， 谁 的 技术 
实力 强 就 更 容易 成 为 既定 标准 。 

1991 年 10 月 ， 创 新 公司 推出 了 Sound Blaster (fj 
称 SB) 2.0 声 卡 ， 如 图 8-28 所 示 。 其 主要 改进 是 ， 使 
DMA 引 擎 〈 利 用 Intel 8237 芯 片 ) 与 Host 交 换 数据 ， 
节省 Host 端 CPU 资源 ， 回 放 支 持 的 采样 率 提升 到 44.1 
kHz， 录 音 则 支持 到 15 kHz。 采 用 了 更 高 集成 度 的 芯 
片 ， 所 以 降低 了 整个 单 板 的 尺寸 。SB 2.0 的 主 控 芯 片 
内 部 封装 了 主 控 +DMA 引 擎 两 个 芯片 ， 用 户 可 以 购买 
这 个 新 主 控 芯 片 ， 然 后 替换 SB 1.0 声 卡 上 的 主 控 ， 由 
于 这 些 芯片 采用 的 都 是 DIP 插 针 模 式 ， 从 而 可 以 实现 
方便 的 升级 。 但 是 采样 率 无 法 通过 这 种 方式 升级 ， 因 
为 该 功能 需要 板 上 其 他 芯片 配合 实现 。 


Еее 


Sound Blaster 2.0 (CT1350B) | 


图 8-28 SB 2.0 声 卡 


1992 年 6 月 ， 创 新 公司 推出 了 SB16 型 声卡 ， 如 图 
8-29 所 示 。 其 中 第 一 次 引入 了 波 表 合成 模式 。 具 体 是 
通过 在 母 卡 上 插 一 块 专门 用 于 储存 和 处 理 波 表 合成 的 
WaveBlasterI 子 卡 〈 图 中 右 侧 ) 的 方式 实现 的 ， 该 子 卡 


上 和 集成 了 从 E-Mu 公 司 收购 而 来 的 EMU8000 合 成 器 芯片 
〈 图 中 面积 最 大 的 那 块 ) 和 2MB 容 量 的 波 表 ROM。 虽 
然 SB16 母 卡 上 也 板 载 了 雅马哈 的 FM 合成 器 YMF262， 
Host 端 程序 可 以 选择 使 用 哪个 设备 来 播放 MIDI 音 乐 。 
该 卡 也 首次 兼容 了 MPU-401 的 串口 信号 格式 。 该 卡 推 
出 之 后 非常 受 欢 迎 ， 后 续 又 推出 了 PCI 接 口 的 版 本 。 

1994 年 3 月 ， 创 新 公司 推出 了 Sound Blaster 
AWE32 型 声卡 ，AWE 表 示 Advanced Wave Effects，32 
表示 其 支持 32 和 弦 合 成 。 其 将 原本 只 在 WaveBlasterII 
子 卡 上 配备 的 EMU8000 合 成 器 芯片 集成 到 了 声卡 母 板 
上 ， 同 时 集成 有 1MB 的 波 表 ROM， 可 模拟 128 种 乐器 
音色 ， 如 图 8-30 所 示 。 

1998 年 ， 创 新 公司 推出 了 SB Live! 型 声卡 ， 这 是 
一 款 具 有 跨 时 代 意 义 的 声卡 ， 如 图 8-31 所 示 。 首 先 ， 
其 前 端 IO 接口 从 ISA 变 为 了 PCI。 其 次 ， 其 采用 了 收 
购 E-Mu 公 司 之 后 新 研发 的 EMU10K1 数 字音 频 处 理 芯 
片 ， 其 本 质 是 一 片 DSP (Digital Signal Processor， 数 
字 信 号 处 理 器 ) ， 运 行 固件 和 算法 程序 ， 对 数字 化 后 
的 音频 进行 数字 处 理 ， 从 而 实现 各 种 音效 。 其 完全 在 
数字 域 对 音效 进行 处 理 ， 完 全 抛弃 了 之 前 那 种 利用 
LFO 产 生 波形 然后 调制 基 波 的 模拟 做 法 。 任 何 声音 信 
号 ， 不 管 是 从 Host 端 传 过 来 的 PCM 数 据 流 信号 ， 还 是 
从 波 表 中 读 出 的 音符 信号 ， 它 们 原本 都 是 数字 信号 ， 
会 直接 输送 到 DSP 中 进行 处 理 。DSP 芯 片 承担 了 几乎 
所 有 的 音频 处 理 任务 。 这 也 是 得 益 于 芯片 制造 工艺 方 
面 的 提升 ， 以 及 数字 信号 处 理 算法 领域 的 发 展 。 从 
此 ，PC 声 卡 完全 转向 了 集中 数字 处 理 方式 。 用 模拟 的 
方式 处 理 ， 需 要 众多 分 立 模 块 ， 还 需要 放置 各 种 参数 
寄存 器 等 控制 它们 ， 还 得 给 每 个 模块 准备 对 应 数量 的 
单独 输入 输出 端 ， 这 样 实现 起 来 比较 麻烦 ， 而 且 ， 模 
拟 电路 的 稳定 度 不 好 ， 容 易 受 到 比如 温度 、 湿 度 等 各 
种 干扰 ， 所 以 一 些 模 拟 设备 上 都 配备 有 校正 旋钮 (前 
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图 8-29 SB16 型 声卡 
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图 8-30 Sound Blaster AWE32 型 声卡 


文中 提 到 过 ) 。 而 数字 处 理 则 方便 、 
看 到 该 卡 上 的 芯片 数量 明显 变 少 了 


统一 得 多 。 所 以 
， 单 薄 了 许多 。 


АВТ ЛИН МИ АЛ пе ТТ 


图 8-31 


高 集成 度 带 来 的 副作用 就 是 “ 玩 头 ” 没 了 ， 更 

多 复杂 逻辑 都 被 集成 到 了 芯片 内 部 ， 外 观 极其 简单 ， 
导致 发 烧 友 们 没 得 可 玩 了 ， 也 没 得 可 研究 了 ， 没 得 烧 
了 。 比 如 ， 花 了 大 价钱 ， 就 买 回来 一 个 单一 芯片 + 程 
序 ， 一 切花 哨 功能 都 被 写 入 到 了 程序 算法 中 ， 看 不 见 
摸 不 着 ， 那 就 没什么 意思 了 。 这 就 像 那 些 烧 手表 的 人 
一 样 ， 都 烧 机 械 表 ， 而 少 有 烧 电子 表 的 ， BERETE 
又 准 又 方便 。 相 机 也 是 烧 单 反而 不 烧 微 单 。 
结 来 讲 ， 发 烧 友 们 烧 的 本 质 上 是 一 种 可 见 可 觉 的 精 
妙 结构 。 冬 瓜 哥 烧 的 可 能 比较 奇 范 ， 曾 经 烧 过 细胞 和 
蛋白 质 分 子 〈 见 第 9 章 开 场 以 及 尾声 部 分 ) ， 烧 过 存 
储 系统 架构 ， 现 在 烧 的 是 整个 计算 机 体系 结构 。 冬 瓜 

哥 比 较 穷 ， 还 好 ， 这 些 都 不 用 钱 ， 用 脑子 就 行 了 。 
图 8-32 所 示 为 另 一 款 采 用 DSP 处 理 音 效 的 USB 接 
口 的 声卡 架构 图 。 图 8-33 所 示 为 SB Live! 声 卡 的 特性 
一 览 。 其 支持 48 和 弦 MIDI 演 奏 ，64 内 置 波 表 音色 ， 可 
通过 PCI 访 存 方式 读 取 Host RAM 中 载 入 的 1024 个 波 表 
音色 ， 支 持 用 户 自 定 义 音色 的 SoundFont 技 术 ， 支 持 


SB Live! 声 卡 


z 


创新 独创 的 EAX 环境 音效 计算 处 理 等 特性 〈 后 来 创新 
将 EAX 的 标准 公开 了 ， 这 使 得 其 他 厂商 也 可 以 按照 各 
自 的 算法 实现 EAX 音效 ) 。 

2001 年 ， 创 新 推出 了 SB Audigy 声 卡 ， 其 DSP 型 号 
升级 为 EMU10K2。 声 卡 发 展 到 这 个 阶段 ， 其 实 已 经 
没有 什么 重大 革新 加 入 了 ， 基 本 上 都 是 一 些 规格 方面 
的 增强 ， 比 如 采样 率 、 采 样 精度 、DMA 引 擎 的 速度 、 
MIDI 合 成 的 和 弦 数 、 波 表 容 量 、 各 种 特殊 音效 处 理 
等 。 其 实 ， 就 像 上 文中 所 说 的 ，16 位 采样 精度 对 于 多 
数 人 早已 足够 ， тне но T MERES 
析 ， 人 耳 人 脑 已 经 无 法 分 辨 了 ， 只 剩 下 给 发 烧 友 烧 着 
用 了 。 但 是 对 于 专 ИЕ 曲 家 、 音乐 家 来 讲 ， 这 些 功 

能 和 规格 还 是 需要 的 。 创 新 后 续 又 推出 了 SB X-Fi, SB 
Recon3D、SB Z 等 型 号 的 声卡 ， 这 里 就 不 多 介绍 了 。 


8.1.4 与 发 声控 制 相关 的 Host 端 角色 


本 节 我 们 要 来 看 看 Host 端 的 程序 都 需要 做 些 什 么 
事情 ， 才 能 最 终 让 声卡 发 声 。 首 先 可 以 想到 的 是 ， 声 
卡 起 码 需 要 暴露 下 面 这 几 种 交互 方式 。 

(1) PCM 数 字音 频数 据 流 接口 。 接 收 PCM 数 据 
流 并 进行 D/A 转换 然后 发 声 ， 这 种 场景 不 需要 声卡 对 
数据 流 做 任何 处 理 ， 除 非 用 户 手动 指定 让 声卡 以 某 特 
效 来 播放 该 声音 。 所 以 声卡 还 必须 提供 控制 接口 以 便 
让 用 户 下 发 这 些 参 数 。 

(2) 控制 接口 。 接 收 用 户 下 发 的 控制 信和 号， 
如 “将 环境 音 场景 改 为 大 厅 场 景 ”， 或者“ међи 
环绕 声 播放 ”， 或 者 “将 均衡 器 设置 为 古典 音色 ” 
等 。 这 些 参数 并 非 实际 的 音频 流 数据 ， 所 以 需要 用 单 
独 的 接口 告诉 声卡 。 

(3) 原始 MIDI (Raw MIDD 乐谱 流 接口 。 支 持 
MIDI 播 放 的 声卡 必须 提供 Raw MIDI 接 口 ， 也 就 是 提 
供 对 应 的 Handler 函 数 来 接收 单个 音符 的 奏 乐 信息 。 
这 意味 着 ， 需 要 在 Host 端 运行 一 个 MIDI 解 析 器 ( 俗 
称 Sequencer) ， 或 者 接地 气 点 说 ，MIDI 播 放 器 。 该 
播放 器 解析 MIDI 乐 谱 文件 ， 然 后 将 对 应 的 演奏 音符 
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图 8-32 


Playback and Recording Sources 


Digitized Sounds . 
. 


Sound Blaster 16 Emulation in DOS box and real mode DOS. 

* Playback of 64 audio channels each at an arbituary sample rate. 
Each audio channel can function as a WaveTable Synthesizer 
voice. 


+ Each audio channel can playback either 8 bit or 16 bit data Кот * 


host memory. 


+ Pairs of audio channel сап be programmed to play 8 ог 16 bit + 


interleaved data from host memory. 
+ 48kHz recording from AC97 sample rate converted to 8 common 


rates to host memory. М 


+ Playback Sources: СОМ, СО ЅРОІЕ, AUX_IN, 
МІС _І№, ТАО, MIDI апа Маме. 

+ Recording Sources: СО 1№, СО ЅРОІЕ, AUX_IN, ИМЕ ІМ, 
MIC_IN, ТАО, MIDI апа Маме. 

+ Ful duplex recording апа playback. 

Effects Engine 

+ E-mu® Systems EMU10K1™ patented effects processor. 

. Supports real-time digital effects like reverb, chorus, echo, flanger, 
pitch shifting, vocal morpher, ring modulator, auto-wah or 
distortion across any audio source. 

+ Capable of processing, mixing and positioning audio streams 
using up to 131 available hardware channels. 

+ Customizable effects architecture allows audio effects and 
channel control. 


LINE_IN, 


+ 
. Full digital mixer maintains all sound mixing in the digital domain, 


eliminating noise from the signal. 
. Full bass, treble, and effects controls available for all audio. 


另 一 款 采用 DSP 处 理 音效 的 USB 接 口 的 声卡 架构 图 


Wave Table Synthesis 


E-mu® Systems EMU10K1™ music synthesis engine. 

64-voice hardware polyphony with E-mu's patented 8-point 
interpolation algorithm for excellent fidelity. 

64 hardware and 1024 PCI wave-table synthesis 

48 MIDI channels with 128 GM & GS-.compatible instruments and 
10 drum kits 

Uses SoundFont® technology for user-definable wave-table 
sample sets; includes 2MB, 4MB and 8MB sets. 


Loads up to 32MB of samples into host memory for professional 
music reproduction. 


Environmental Audio and 3D Audio Technology 


User-selectable settings are optimized for headphones and two or 
four speakers. 

Accelerates Microsoft® DirectSound® and DirectSound3D. 
Support for Environmental Audio" property set extensions. 
Creative Multi Speaker Surround™ (CMSS™) technology allows 
real time panning and mixing of multiple sound sources using two 
ог more speakers. 

Creative Environments — user-selectable DSP modes that 
simulate acoustic environments like concert hall, cave, 
underwater, and many more environments to any audio source. 


图 8-33 ЗВ Live! 声 卡 的 特性 一 览 


按照 文件 中 说 明 的 节拍 长 度 (为 什么 叫 Sequencer 的 原 
因 ) ， 传 送 给 声卡 上 的 合成 器 ， 当 然 ， 是 先 传递 给 声 
卡 驱 动 注册 的 专门 用 于 接收 奏 乐 信息 的 Handler 函 数 ， 
后 者 再 发 送 给 声卡 。 

(4) Sequencer 音 序 器 访问 接口 。 有 些 声卡 支持 
将 MIDI 乐 谱 流 从 Host 端 拿 到 以 后 转发 给 其 MIDI 输 出 
端口 ， 或 者 反之 。 比 如 ， 有 一 台 外 置 专业 合成 器 (或 
者 叫 Sequencer) ， 通 过 15 针 Game Port 串 口 接收 MIDI 
乐谱 流 ， 它 怎么 接 入 系统 ? 比如 我 们 前 文中 介绍 的 声 
卡 ， 其 在 Game Port 上 提供 了 MIDI Input 和 Output 针 ， 
外 置 电子 乐器 需要 连接 到 Input， 而 外 置 合成 器 需要 
连接 到 Output。 用 户 演奏 电子 乐器 ， 乐 器 将 生成 的 
MIDI 音 符 流通 过 Input 针 传递 给 声卡 ， 声 卡 将 接收 到 


的 MIDI 乐 谱 流通 过 Sequencer 访 问 接口 传送 给 Host 端 
程序 ， 由 Host 端 程序 决定 后 续 怎么 处 理 这 个 音符 的 演 
奏 ， 比 如 可 以 通过 Raw MIDI 接 口 再 发 送 回 该 声卡 用 
该 声卡 内 置 合成 器 演奏 ， 也 可 以 发 送 给 系统 内 的 其 他 
声卡 的 Raw MIDI 接 口 用 其 他 声卡 演奏 ， 用 哪个 声卡 
演奏 ， 完 全 取决 于 用 户 选择 了 哪个 MIDI 设 备 作为 默认 
输出 设备 或 者 强行 指定 哪个 设备 。 或 者 ， 甚 至 有 一 些 
软 MIDI 合 成 器 ， 软 合成 器 也 会 注册 Raw MIDI 接 口 函 
数 ， 其 完全 用 Host 端 CPU 运行 程序 的 方式 来 读 取 软 波 
表 中 的 码 流 ， 然 后 合成 出 PCM 码 流 ， 然 后 将 PCM 发 送 
给 声卡 播放 ， 所 以 程序 可 以 将 收 到 的 MIDI 乐 谱 流 发 送 
给 该 软 合 成 器 。 而 外 置 合成 器 需要 接收 MIDI 乐 谱 流 ， 
所 以 其 连接 到 声卡 的 MIDI 接 口 Output 上 。 假 设 ， 同 一 


个 声卡 分 别 通过 MIDI Input 和 Output 连 接 了 一 台电 子 
键盘 和 一 台 外 置 合成 器 ， 那 么 可 以 做 到 这 种 效果 : 电 
子 键 盘 发 出 的 MIDI 流 被 直接 传递 给 外 置 合成 器 来 合 
成 。 这 里 压根 没 声卡 什么 事 ， 声 卡 只 是 将 键盘 生成 的 
MIDI 乐 谱 流 转发 给 外 置 合成 器 而 已 ， 有 些 声卡 可 以 被 
配置 为 擅自 转发 ， 而 不 经 过 Host， 或 者 被 配置 为 现 将 
键盘 的 MIDI 流 通过 音 序 器 接口 先 发 送 给 Host，Host 再 
将 其 通过 音 序 器 接口 发 送 给 声卡 ， 声 卡 再 将 其 转发 给 
外 置 合 成 器 。 所 以 ，Sequencer 音 序 器 接口 的 作用 就 是 
用 来 转发 MIDI 乐 谱 流 的 ， 而 不 是 回放 。 

(5) 其 他 接口 。 比 如 定时 器 接口 (访问 声卡 上 
的 定时 器 ， 因 为 让 声卡 演奏 音符 是 需要 按照 一 定 节拍 
的 ， 程 序 只 能 利用 定时 器 来 打 拍 子 ， 然 后 决定 在 什么 
时 候 发 送 下 一 个 音符 给 声卡 演奏 ， 所 以 声卡 必须 自 带 
一 个 定时 器 来 做 这 件 事 ， 虽 然 计 算 机 主板 上 或 者 IO 桥 
芯片 内 已 经 有 高 精度 定时 器 ， 但 是 声卡 设计 者 并 不 能 
保证 所 有 计算 机 都 自 备 了 定时 器 ) 、Mixer 接 口 〈 访 问 
声卡 上 的 Mixer 用 于 控制 音量 、 选 择 输入 端 等 ) 。 

那么 ， 这 几 种 访问 接口 具体 以 什么 形式 展现 呢 ? 
每 个 声卡 驱动 可 以 直接 提供 对 应 的 函数 就 可 以 了 ， 
比如 mycard_play_rawmidi()、mycard_xfer_seq()、 
mycard play pcm()、mycard ioctrl0、mycard_timer()、 
mycard_mixer_ctrl()。 问 题 在 于 ， 不 同 声 卡 的 函数 的 
参数 不 同 ， 用 法 不 同 ， 暴 露 的 接口 也 不 同 。 有 些 说 我 
不 喜欢 mycard_xfer_seq() 这 个 名 字 ， 我 想 用 mycard_ 
event_xfer()， 而 且 我 想 把 一 个 函数 拆 分 多 个 细 分 函 
数 ， 我 就 这 风格 ， 你 怎样 ? 最 终结 果 将 是 各 家 的 声卡 
提供 不 同 的 API 接 口 ， 导 致 上 层 应 用 学 习 成 本 增加 。 
如 图 8-21 右 侧 所 示 ， 当 年 DOS 游 戏 程序 需要 为 每 个 声 
卡 的 接口 对 接 ， 对 应 在 代码 中 就 是 一 堆 的 switch/case 
语句 ， 判 断 用 户 选择 了 哪个 声卡 ， 就 调用 哪个 声卡 的 
API 函 数 。 为 此 ， 现 代 操 作 系统 的 一 个 作用 就 是 去 统 
一 接口 ， 不 管 底 层 用 怎样 奇 苑 的 处 理 方式 ，OS 自 己 
加 一 层 协 议 栈 将 底层 盖 掉 ， 然 后 暴露 统一 的 接口 函数 
给 应 用 程序 ， 这 就 是 一 种 抽象 封装 过 程 。 比 如 ， 对 于 
Linux 系 统 ， 其 最 顶层 的 抽象 就 是 设备 符号 ， 任 何 设 
备 都 体现 为 一 个 符号 路 径 ， 比 如 /dev/sda 表 示 SCSI 硬 
盘 a，/dev/snd/seq 表 示 声 卡 上 的 MIDI 解 析 器 。 不 管 你 
是 什么 厂商 的 硬盘 或 者 声卡 ， 如 果 有 多 个 硬盘 或 者 声 
卡 ， 那 么 就 用 多 个 符号 来 区 分 ， 比 如 /dev/sda、/dev/ 
sdb、/dev/snd/seq0、/dev/snd/seq1l 等 。 程 序 访问 这 些 
设备 ， 不 需要 直接 调用 该 设备 驱动 注册 的 各 式 各 样 
的 handler 函 数 ， 而 是 利用 统一 的 接口 ， 比 如 open0、 
read()、write0 等 ， 打 开设 备 ， 从 设备 中 获取 〈 不 要 
狭隘 地 理解 为 读 ) 数据 ， 向 设备 发 送 〈 不 要 狭隘 地 
理解 为 写 ) 数据 。 不 管 是 盘 、 网 卡 、 声 卡 ， 通 过 何 
种 IO 网 络 被 接 入 ， 程 序 根本 毫 不 知情 ， 都 用 这 些 函 
数 来 访问 设备 ， 这 就 极 大 降低 了 应 用 程序 的 开发 成 
本 。 当 然 ， 给 应 用 省 出 来 的 麻烦 ， 操 作 系统 要 自己 承 
担 ， 各 个 设备 驱动 将 自己 的 各 种 handler 注 册 到 这 些 设 
备 对 应 的 struct 登 记 表 中 ， 当 然 ， 为 了 实现 统一 ， 操 作 
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系统 也 会 规定 一 些 必需 的 接口 和 一 些 可 选 的 接口 。 如 
果 超 出 了 这 个 范围 ， 比 如 某 声 卡 设计 者 要 实现 另 一 种 
奇 范 功能 ， 但 是 OS 没 有 在 登记 表 中 提供 该 功能 的 实现 
接口 ， 那 么 该 声卡 就 无 法 通过 统一 接口 来 实现 这 个 功 
能 ， 但 是 依然 可 以 通过 自己 暴露 的 私有 接口 来 实现 。 

我 们 以 Linux 操 作 系 统 下 的 声音 协议 栈 ALSA 
(Advanced Linux Sound Architecture) 为 例 来 介绍 。 我 
们 在 第 7 章 中 曾经 介绍 过 ， 在 Linux 操 作 系 统 下 每 个 设 
备 都 有 各 自 的 盘 符 路 径 ， 应 用 程序 要 访问 这 些 设备 ， 
可 以 直接 在 代码 中 指定 对 应 的 路 径 ， 然 后 由 VFS 通 过 
查 表 来 调用 对 应 该 设备 的 IO Handler 函 数 〈 驱 动 加 载 
时 由 底层 驱动 注册 到 系统 中 的 ) 。 这 是 OS 对 IO 设备 所 
做 的 最 顶层 的 抽象 。ALSA 致 力 于 屏蔽 底层 声卡 的 差异 
性 ， 向 应 用 程序 提供 统一 的 接口 ， 它 选择 了 釜底抽薪 
的 方式 ， 也 就 是 直接 向 系统 中 注册 虚拟 设备 的 方式 。 
上 文中 列 出 的 那 5 大 类 接口 ， 被 ALSA 直 接 注册 成 对 应 
的 设备 符号 ， 至 于 访问 这 些 设备 的 handler 函 数 ， 先 挂 
接 ALSA 自 己 的 函数 ， 这 些 函 数 在 做 一 些 基本 判断 、 准 
备 、 封 装 工作 之 后 ， 再 调用 声卡 驱动 注册 的 handler 函 
数 ， 当 然 ，ALSA 也 会 准备 一 堆 表 格 让 声卡 驱动 去 填写 
注册 。ALSA 体 系 对 应 的 设备 符号 样 例如 下 〔 只 列 出 
常用 的 设备 符号 ， 实 际 上 还 有 更 多 其 他 设备 接口 ): 

/dev/snd/controlc0 ”用 于 声卡 的 控制 ， 例 如 通道 选 
择 、 混 音 、 麦 克 风 的 控制 等 的 设备 符号 。 

/dev/snd/midic0D0 ”用 于 接收 原始 MIDI 乐 谱 流 的 设 
备 符号 。 

/dev/snd/pcmC0D0c 
示 recordero 

/dev/snd/pcmC0D0p 
备 符号 ，p 表 示 playback。 

/dev/snd/seq 接收 解析 之 后 的 MIDI 演 奏 事 
件 的 音 序 器 ，ALSA 设 计 者 习惯 把 合成 器 叫 作 sequencer/ 音 序 
器 ， 的 确 也 有 这 么 叫 的 。 

/dev/snd/timer 定时 器 。 

这 样 ， 应 用 程序 访问 对 应 的 符号 ， 比 如 伪 代码 ; 
write( /dev/snd/pemC0DOp, *buf int length)， 将 PCM 音 
频 流 发 送 给 /dev/snd/pcemC0D0p 这 个 设备 ， 而 该 设备 
其 实 是 由 ALSA Driver 注 册 的 。 所 以 数据 流 其 实 是 先 
传递 给 了 ALSA Driver， 经 过 一 系列 处 理 之 后 ，ALSA 
Driver 再 调用 由 声卡 底层 驱动 当初 注册 的 handler 函 数 
比如 mycard_play_ pcmO 函 数 ， 该 函数 底层 继续 调用 
其 他 函数 ， 最 终 调 用 到 声卡 的 LLDD 驱 动 将 数据 流 压 
入 Send Queue， 声 卡 DMA 引 擎 从 Host 端 取出 对 应 数 
据 然后 进行 播放 。 同 理 ， 访 问 其 他 设备 符号 也 是 类 似 
过 程 。 下 面 我 们 就 来 看 一 下 整个 ALSA 框 架 的 架构 细 
节 ， 如 图 8-34 所 示 。 

整个 ALSA 体 系 在 最 顶端 是 位 于 用 户 态 的 ALSA 
Lib 库 ， 其 将 上 述 的 那些 诸如 /dev/pemC0D0p 等 设备 再 
次 进行 了 封装 ， 输 出 更 加 上 层 的 函数 比如 snd_pem_ 
open()、snd_pcm write() 等 函数 供应 用 层 调用 来 发 
声 。ALSA Lib 向 下 则 访问 由 ALSA 内 核 态 Driver 生 成 
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的 设备 符号 ， 从 而 将 请 求 传递 给 后 者 对 应 的 handler 函 
数 ， 这 些 handler 函 数 包 括 比如 snd_open0)、snd read() 
等 。 这 些 函数 继而 调用 snd_pcm_ playback ореп() £ 
更 加 具体 的 函数 ， 并 最 终 调 用 到 hw_open() 这 些 位 于 
ALSA Driver 最 底层 的 函数 ， 后 者 则 开始 调用 由 Device 
Driver 注 册 的 与 硬件 相关 的 函数 ， 最 终 将 请 求 传递 给 
硬件 。 其 中 ，Device Driver 需 要 由 每 个 声卡 厂商 自行 
开发 ， 其 他 组 件 都 是 Linux 操 作 系统 自 带 的 。 

下 面 我 们 就 来 看 一 下 一 个 应 用 程序 是 如 何 将 数据 


发 送 给 声卡 的 底层 细节 过 程 。 该 过 程 分 为 两 大 步 : 第 一 
步 是 先 要 打开 对 应 设备 ， 第 二 步 则 是 将 数据 写 入 对 应 
设备 ， 也 就 是 向 声卡 发 送 数据 。 图 8-35 所 示 为 打开 一 个 
PCM 设 备 的 过 程 ，aplay 是 一 个 ALSA 库 自 带 的 播放 器 程 
序 。 当 然 ， 也 可 以 使 用 其 他 程序 ， 调 用 过 程 是 一 样 的 。 

图 8-36 一 图 8-42 所 示 为 图 8-35 中 的 各 个 步骤 的 细 
节 描述 。 

图 8-43 所 示 为 程序 向 声卡 写 入 数据 的 过 程 。 
8-44 一 图 8-46 所 示 为 过 程 中 不 同步 骤 的 细节 描述 。 
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()чәдо зредлћеја шоа pus 


“uədo :peqAeld шоа pus = uədo: 
ј = [z]sdo j шоа pus 


计算 机 系统 底层 架构 原理 极限 剖析 


有 32 四 大 话 计算 机 


(S) ВЕН WATCH ГЕНИЯ 65-8 国 


ОРЕ : 2XJouaw upDpd/ajo2/punos/9z'9Z-a2Jnos-xnull 


лэцпа ума 941 sle2olle ()ѕәбеа эоцеш ан wd pus `, 
Елу 


(6) 明 „0645-5: „билурелир-езје У [127 


Р9Є : гелцеи шза/алоз/рипов/92'9'2-е2лпо5-хпиц 
(јошелеа мц шоа pus ў 

79 : 'әлцеи шоа/әло2/рипо5/9:2'9'0-ә21поѕ-хпи 
(uasn ѕшееа му шоа pus `£ 

16? : әлдеи шоа/злоз/рипо5/92'9'2-е2лпо5-хпиц 
()урогиошшоз шоа pus 2 

1242 : >элцеи шоа/злоз/рипо5/92'9'2-92лп0о5-хпиц 


(рог :peqAeld шоа pus `, 
алу 


Roedd F EAEE 
' Qswesed mY biuosuə риѕу ат ун РИБА REEE 
"НЕЧ ШЇ ЖЕУ ' (asn ѕшелеа му шоа риѕҳашејеа мц 


луўахә$еә-цоим5[ 1 ‹Б#БА() | 1230! иошшо» шоа pusz ' ЕН 
ВЕК поо! xoeqKe|d шоа ризбуяуакванзо!аелир-ез1ез} 


Ж\6)58чв5Є-ӨЕБЕРБВЛЧЕК С T 


()sə8ed эоцеш а! шоа“ pus 


(јошезеда му biuos 


зелџр-езмер 


залџр-езје 


()swesed my <-500<-шеәдѕдпѕ 


‘swesed му bluosua pus = ѕшезеа мц’ 
} = sdo туэедАе 9 bluosua pus 
9142 TLETSN3 


(jasn sweJed му шоа pus 


(jasn sweJed му шоа pus 


SNYYYd МН 112O|[ WYd AYANS э5е2 


()т20Г џошшо2 шоа pus 


(утазог yoeqAeld шоа pus 


(јрзог :peqAeld шоа pus 


(5учунуа MH хххјизо! 


‘Por peqAeld_ шоа pus = доог pəyəolun: 
} = [z]sdo Jj шоа pus 


825 
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(9) ВЕЋИНА 0-80 


980$ : >’элцеи ud/alo2/punos/9z'9Z-aoJnos-xnull 
(упеј езер дешш шоа pus ‘$ 

gZ LE : э'әлцеи шоа/алоз/рипоз/92'9'2-е2лпо5-хпиц 
(дешш yneyap wd pus `є 

$11 : гелђеџ uDdy/alo2/punos/9z'9Z-aoJnos-xnull 
(езер дешш wd pus '2 

ФСЕ : 3'Əaneu шэа/әлоо/рипо5/9@`9`@-Әәэ4по$-хпи!| 
(дешш wd pus ‘| 


Еп 


ЕТ] 
WE ' JABHA PRGA ешр <-әшципи1 аА 
ER MHARE AARE сува Акру дешше 


жшрец) дешш шоа ризрлукх ва ешшлалир-езје- у 


ЕАИС 
БОБА т: ЕКШ НЫ НЕ ЖЕГЕ У зао сат о СРЕМ 52 
орч Е МЕР ВИЗЕ ЦИЕ SARENA 
ЕН" HR pE ТАТНА R RNE 
BERAST ОЛЕН — ВКТ А )дешш : дешш-ЕзЕ 


Ale U6BchS£-8E Л лр J ВЕ 


ләлыр-әоіләр 


дэлир-езе 


дазујо + гаје ешр<-ешпип = зррел 


пите обли H p БИХ 


(јупеј elep дешш шоа pus 


еер sdo шл шоа pus® = $40 шл<-еәле 


(јдешш" упејар шоа pus 
пе; езер дешш" шоа pus 


= пер 


езер дешш шоа pus 
} = езер sdo шл шоа pus (делер Е 


(јдешш“ wod pus 


(pydeww)dewwu 


‘deww шоа“ pus = дешш" 
} = [z]sdo J шоа pus 


计算 机 系统 底层 架构 原理 极限 剖析 


有 3 可 大 话 计算 机 


:lvddWs TZET™ RNO 


(L) BRHF ANRHEG HEHN 


RHES 


17-881 


()эзел toep IZ€IsƏ pus 


(туїнз<'”)впо 
"МЭ INI Td S3=| pps 


{3215 тоуа“")впо 


(зчунз тома“)рпо 


:(39vd W3N™)hno 


‘(1041NO9™)Rno 


198 : 20LELsua/pd/punos/9z'9'zZ-apJnos-xnull 
(јеледола" LeqAeld biuosuə pus '9 

8621 : ^элцеи upd/ajo2/punos/9z'9Z-aD2inos-xnull 
(језедаза op wd pus '5 

818 : >эәлцеи upd/aio2/punos/9z'9'Z-aDJnos-xnull 
(>ниозенои uonpe шоа pus ‘y 

1281 : >әлуеи uu3d/ə1oos/punos/9z`9"z-ə31nos-xnul| 
(Qaedald шоа pus ‘£ 

16} : >элцеи шод/алоз/рипов/92'9'2-а21п05-хпиц 
(0120г иошшоз шоа pus 2 

1272 : ээлмүеи uDd/aloo2/punos/9z'9'Z-aDJnos-xnull 
Оррогреакеја wd pus 1 
галу 


"вевоедаја БН Еве 

пређе ыгыта ' () еледела |редлеја biuosuə pus 
жеце ШЕ ЕНЕН таала H ЫДЫ 
y ' (јеледала шоа ризувефеледела ту [= 1әзеэ/цэу\м5 
ББ И рог иошшо» шоа pusz; ' HHZZ 

0 ррогореддеј 4 шоа ризбитуовваноофјелир-езјезу 


(< бабе а НЕР Аки ЕШ Е 


БЕЕН 


-i 


Башан‘ УОН ЕНЕМ ИНАЯ СЕНУ 

тї ° IZIS 1Эуа бав изиМ У омаж фу ° a, 

Е ' WNI OVO ЗЕ ШЕТ SAISY 
Т+Н1/Є15М3#) ' зевбрерша ' 25 ши фан Л 
МУШ ЕМ Е: СОАО a 


"AlO Басе ОНЕ ЕЛИ у Би У ВИЗЕ 


зәлир-әзләр 


залмар-езје 


‘aJedaJd тузедћеја bluosua pus = әлейәз@- 
} = sdo рредАеа bluosua pus 
9192 TLETSN3 


()asedasd<-sdo<-Weansqns 


(јаедаза op шоа pus // (јиодзе op<-sdo n 


(al8uls_uon2e шоа pus "гледала op wad" pus = uon2e op: 


= Ə1edə1d uoe wd pus 
(auedajd_uon2e шоа pusj2luoleuou uoge wd pus } as P 
(јазедала шоа pus 

:3dvdjdd 1120 Оа AHQNS 2562 


(TRO uowwo шоа pus 


()разог peqAeld wd pus 


(јрзог peqAeld шоа pus 


4 


‘por уредАе! 4 шоа pus = hoor pay2olun- (энуазна X 


} = [zjsdo у шоа pus 
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T 


децм =| Ip<-biuosuə 


МЗ тома 53 =| зечм 


18915 8359181 


(8) БЕБИ RAN КЕН НАЧ cr-SBd 


Ho<-bluosuasjpno 


БЕ] "раст И ОНАЈ ТЫ ҤЕ ЕҤ Г ' 


WIA ASgNS ase? 


тан HVO ЕН Е 


EENE 


+ нелџр-езјеј а -е5је аЛ ЧЕНҮҮ ' 18 


"у Ма ' LOVOR, ' пума LOVA 
паа аи нувиеј ви еббиј biuosuə pus 


秘 (0z) 明 в -Ө УБИЛИ XS ЈЕ 


ома 53 


261: 50/5 154э/2А/рипоз/92'9'-э2л00$-хпи| 
()лэббиз biuosuə pus '5 

878 : Э'эәлцеи шоа/алоз/рипов/92'9'2-221п05-хпиц 
Oues ор wd pus $ 

764 : ?AHeu шоа/злоз/рипов/92'9'2-22лп05-хпиц 
(bar у2ој uone шоа pus ‘є 

1672 : 'әлцеи uu3d/ə1os/punos/gz`g`z-ə321nos-xnul| 
()урог иошшоз wd pus ‘z 

1212 : гелцец шоа/алоз/рипоз/92'9'2-а2лпов-хпиц 
(прог уредлеја шоа pus `, 
Ету 


"кааоббиј 

права БЕЗНЕ ничу невина. ' (Ja66u biuosuə pus 
ЗБАЦЕ ЕН БАУЕР ' Het 

ЗЕЕ ' () би pol иоцое шоа pusese) 
-UD1AST-(EIIcHË#5B8() 1201 иошшоз wd pus% ' НЕЕ 
() ррог»реалеја шоа pusky fRA зонлелир-езје у 


426 бес -ӨЕТЕБВЛЧ БК НЛ СИЈА 


“зә88үд biuosuə pus = лева шј“ 
} = sdo рредлћеја bluosua pus 
9142 TZETSNI 


()32е3$ ор шоа риз// ()uon2e op<-sdo 


"џеза ор wod" pus = uon2e op' 
(јејаш5 uon2e шоа pus] } = ues uonoe шоа“ pus 
(јод рој uoe шоа pus] 


:1yV1S ШЈОГ NDd AdQNS 9522 


() 1201 uowwoy шоа pus 
(TRO peqAeld шод pus 


1 (Ror peqAeld шоа pus] 


“рог peqAeld "шоа pus = noor pəypolun- 
} = [z]sdo “J wod pus 


(luV1S XXX)b2ol 


JaNNp-aolAap 


залмџр-езје 


计算 机 系统 底层 架构 原理 极限 剖析 


525 пеи ИЛ: 


с) ш шар Үн нш ШЕ Ey-8 国 


ЭКН Э ( ЕЕ} 
HES GREH ' слива Уда зЕ Н} ) РУО СЕНА "(У 
Бмл ) IRSE БӘ М унан ° БШЫШБЕ(р1 DATE (Ои) 
чәупа шпі с ЕЕЕ] 
`x HREARHNPHHE EF ' ХЕВИ рари 1аләпа шп 
ГНЕВА ЕЕ ENEE EALS e ' а 


‚ВЕНЕ ва а надола рош) сведен 1 аешитатеѕје 


ЕФЕС ы SARPA SO О ЕН ЗУБЫ 

HANE ' ШЕ ИЙ ЫНЫН SAO HRK S ве ришрбвена -езје (p| 
"љета -е5јејај я (ç | 

"ву = 504 (21 

°[&Yildəə|sšuxrë * Нива ЕУ И (LL 

° [yx S [o [д !әлир-е5|е (01 
°лэлир-езезяв ау БН [нанесе Је У (6 

МЕ Готан на Буе ја а УНЕ (g) (2 

уе ГЕННЕН БЕТ} ЕН еф лелмр-езје (9 
°S [аж фјолир -е5је ЕН 0959101 (S 
(¿akui a ин А 

БЇ ' neyddi ҮШ ао} * ZEREN AHG Поа REE h A!-ese (€) 
© [а ОБА Нела |-езје (2 

зе крвна јибва-езјенеЛејде (| 
"Вася ЕЕ а | -е5 e ЕШ ЕЕН А ДУМА 


(јдешш 


| JaHnq wns 


аземрјец 


лзәлир-әзләр 


зәлир-езүе 


(мем шоа pus 


с 


(уәзым wd pus 


(aum wod pus 


СО Шар E sf ЕУ vese 


Пием “дәәз<-әшип.л Nem lod 


四 
Е 

2 
к 
Е 
= 
区 
= 
= 
w 
本 


"ајд од лзаје5 ' 8 
Му — МИ АЕ 
БЕЙ РУИНЫ прецрз FEEN 


(od зредће|4 wəd pus 


g запао ( әпрәцә5Е{& ) HERA "Ва зэлир-езүе 
Е аНЫ ВИЕ: "Зена Е. Гү гече 
4 СВАРОЧНОЕ 
Š pəjəs °| 
ОЕ оз [ эзге :>шәдушәдэв/өго Laveste | 
# Fyon o PE Еее Бапов, Pe ой ¿Ia aquqa от. а 
I) мем ойра} ' ЖН ием ря £ } = [z]sdo J uuod pus (5еэ1е әм бешш = (ѕеәле әим шоа pus `£ 
се кыйыны: тн 
HETER браон однио) #4, — `L эли :әшгадшч/он ео Qi ose — 
` WRALG OA шэ pus `, 
Бн "вара ЖЕЕ ° ан Ио Под: Пизон pem usd pus ааа 


ET HPH БЕ НАКТЫ! ЈЕНЕ "YV 


SEEREN ЕВЕ, Ва ИЕ 
ЕДЗЕ ТЕНЕ! N SALELE 
УУ РК a НИЗА [08 : 09-Е 


Б 
ИД Щ805еәле әзим шоа pus “xiuup воће 
国 0seeJe әзим шоа puset’ HERU) ESSE 


Qayum deww wd pusty ' Qayum дешш шоа pus 
еә ловиш русата (әзл шоа pus 


6682 
: 3'əAneu wd, 'е102/рипоз, "9°2-Әзэ1пО$-хпи! ж g 
е IO Se cd und pusi {кән эшн хор 0009р -SEER RTEA 
ВЕНЕ 


(упа шо; sease wad pus 


"БИН АОДС“ 
Здрава ' ‚ИП стан иәлир-еѕ|е ' 238 
Ша фунте ов Z Yjdəəls<-əuununu _ ва 
Хун го 5<-ошпигму S; ' XRLem оен) 
llod »реалеја шоа ризбвљу с а од фелир-ејеју 


FEH- ЗЕ БИЛИ РКО ~ Ба 


{тәм ешш шэй pus// (аим sdo seje uod 


даром ешш” wod pus = /ayum 
} = sdo 1зер xttup wod" pus 


(йәзим шав“ pus 
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530 Кеи 


(€) ВАТРУ а-н BHE 


St-8 国 


191: vq шоа /eujo2/punos/9z'9'z-a2Jnos-xnull 
()pasdela pouad Wyd риз'2 

УВЕ: 2791 шоа /дло2/рипоз/92'9'2-е2лп05-хпиц 
()pəsde|ə pouad wd pus ә 

Р9Р! : Fq шоа /ə1o3/punos/gz`9'z-ə321nos-xnul| 
(0pasdela pouad шоа pus `, 
: ERREF 


уви EYAN -езје8) Поа л ает 

[9 ээр <-эшпипл Оп әңем # * Бран ова А Уу ав 
SABK ERWIK sod па му alepdn шоа pus 
ЕШ ' БЕНИ ВИР АЕН ' әл!5 РЕНЕ ЧУ КН ЖЕ ДЫА 

(uəjyulod 1Deq 人 Meld biuosuə ри [ё]()рә$йеүә pouad шоа pus 
„ти олир-езјем нова редејз pouəd шоа pus 

ЕЕ БУ еь фуа и (а пмазш одојрпе pus 


“次 加 01dnuelur bdolpne pus2%sg ' MHR AERES 


FOU ХО 68 9 (6) ВЫЕ - ЗЕВСА 


зәлир-е$үе || лелир-ежлер 


EHRBB[£YiJdəəls <-әшципи і 


(даај<-ешциплу)дп эдем 


Tu реле<-[одиоо<-әшциги =< ЕА 


(9215 тома) 


(шеәдѕдпѕ)зәјшоа<- 


Вена Е ()зәдшоа ррредћеја biuosuə pus 


(hdnJJaluf nd му әзерап шоа pus 


()pəsde|ə ponad шэй pus | «Ш [ ()рәѕдејә poued шэй pus 


NI INI Td 53 =8 135 


(здпалэзиг одо!рпе pus 


1@пшәзи! рлемраец 


I 
Е 

Ш 
ш 
= 
E 
= 
= 
| 
本 
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15 :252uUeua6 хішр uu2d/und/31s/91'0`1-qil-esie 


251 : xup upd/upd/pus/9LO'L-ql-esle 
Osea хіш `6 

LSZ : чзренр шоа/шза/>л5/9 | 0 | -ац-е5үе 
(dn алоцдеше5 релр wd pus `g 

LSZ : чренр шоа/шоа/э1/91'0'1-911-е5]2 
(јимор əioudeuuəs }эәлр wd pus `/ 

182 : ээашр udAuod/31s/91'0`1-qil-gsIe 

982 : >хішр шоа/ш»а/з5/9 "01-9 

Ошәѕ umop хішр `ç 

462 : 32x1tup шоа/шза/>15/9 | (у | -а|-е5је. 
()еәле ?2uAs xup шоа pus ‘y 

€44 :ээшр шоа/шоа/225/9 10" | -ац-е$|г 
(ушшоз дешш xup wd pus `ç 

1052 : >шэод/шэд/э15/9 | | -а -е5је 
(Adoo ease ud pus 2 


85 :dle2ol шоа/ш»а/15/9 | 0 | -а -е5је 


Qseale дешш wd pus | 


: 15-23 

"HEHHE НО Чо 

Бунга ' (еј гуиоупа шпоры, ' ERE 
кшн ү 


тиара Edyp ' РА Shhh 
же) ' HE "ЕЕН а рака ' 52912 бина 


Wasp "руаш ' лепа | шпзүж ' SURER 


BBliəlnq unse ' ETU ' брини св Озеаје xu op 


HAAN ' ЕН ј(зеоје XIW ор) ас Бр 

' зазерушшо» дешш xup шоа pusi Y= ‘00521 
пева ишшо» y дешш шоа | ри5 Щ&ї ' БУСЫ 
ЖӨН "ВОНИ ЗАО шо ' 8-га 
ЖШ ЗЕМЕ, ЗЕКЕ KANELO Ado ее ud pus 
ВЫ ° зиду брзеоле бишигпи<-шэбуа реза 
Безе ' ШҮ SYVER) See ом дешш wd pus 


(r lE Обер - УНЕ АЕК 


СР) АТАРУ 5-0 У 90-86 
kamuu mami 


к МЕЛ 
арж вш 


(јап“азоцдешев Panp wod pus // (}шәз dn xup 


255 =+ JabHnq wns 


ац-езје 


(јимор әзоцдешәѕ pənp шоа pus // ()шаѕ umop жшр 


()eəje 2uhs шр шоа pus 


(јушшоз deww xup шоа pus// (јуишшо» deuuuu<-sdo 1$еу<-шэй 


СС х 


‘pwwo deww xup шоа pus 
= ишшоз deuuur 
} = sdo 1sej хнир шоа pus 


(јушшоз deww wsd pus 


зэззиел / (дим 


()Адод гәзе шоа pus| 


Бе ' RHK 
саанан 


()Adoo seaJe шоа pus] 


sease Buluunji<-upd илпдә1 


()seaJe dewuw шоа pus 


AAEH} 
шна ' 8505040057800 


()ш8әд дешш" шоа pus 


(5еәзе эм Чешш шэй pus 


到 大 话 计算 机 一 一 计算 机 系统 底层 架构 原理 极限 剖析 


8.1.5 ”让 计算 机 成 为 演奏 家 


现在 的 计算 机 有 声 阅 读 程序 可 以 阅读 文本 文件 
中 的 文字 然后 转换 成 语音 播放 出 来 ， 它 们 是 怎么 做 到 
的 ? 其 实 就 是 把 每 个 字 / 单 词 的 发 声 录 下 来 ， 根 据 句 
子 的 主 谓 宾语 分 析出 重音 、 间 隔 的 位 置 ， 调 用 这 些 录 
好 的 每 个 字 的 音频 并 拼接 起 来 ， 加 上 后 期 处 理 ， 然 后 
播放 出 来 ， 效 果 与 真人 说 的 非常 接近 。 同 理 ， 任 何 音 
乐 都 是 由 对 应 音调 /音色 的 一 个 个 音符 组 成 的 ， 既 然 
声卡 中 的 合成 器 可 以 演奏 各 种 音色 的 音符 ， 那 么 只 要 
准备 一 份 乐 谱 文件 ， 按 照 一 定格 式 描述 这 首 音乐 中 每 
个 声 部 、 每 个 音符 、 每 个 节拍 等 信息 ， 然 后 用 对 应 的 
程序 阅读 之 ， 调 用 声卡 /ALSA 库 提供 的 Raw MIDI 接 
口 API， 就 可 以 实现 让 计算 机 按照 乐谱 奏 乐 。 目 前 比 
较 流 行 的 是 MIDI 格 式 的 乐谱 文件 ， 这 正如 文本 文件 
的 流行 格式 是 txt 一 样 。 篇 幅 所 限 ， 我 们 这 里 就 不 介绍 
MIDI 格 式 具体 内 容 了 ， 请 大 家 自行 了 解 。 不 过 ， 有 必 
要 列 一 下 MIDI 格 式 中 规定 的 一 些 乐器 的 编码 。 图 8-47 
所 示 为 基本 乐器 编码 表 ， 左 侧 一 列 的 序号 唯一 ， 对 应 
了 每 一 种 乐器 。 

有 了 乐谱 ， 还 需要 有 对 应 的 乐 手 。 计 算 机 乐 手 程 
序 有 很 多 ， 比 如 图 8-48 所 示 的 名 为 SynthFont 的 软件 ， 
其 就 可 以 解析 MIDI 文 件 。 

我 们 用 它 打 开 一 首 最 简单 的 民谣 一 一 虫 儿 飞 .mid 
文件 。 其 会 在 主 界面 中 显示 出 该 乐谱 的 乐器 数量 以 及 
在 什么 时 候 播放 哪个 乐器 、 持 续 多 少时 间 ， 将 这 些 信 
息 图 形 化 展示 出 来 。 

该 工具 功能 非常 强悍 。 在 另外 的 窗口 部 分 中 ， 可 
以 看 到 该 乐曲 一 共 包 含 了 哪些 乐器 / 声 道 的 演奏 。 可 以 
看 到 该 乐曲 使 用 了 音乐 盒 、 贝 斯 、 伴 奏 钢 琴 、 电 颜 琴 
和 主 钢琴 这 5 种 音色 ， 如 图 8-49 所 示 。 用 户 可 以 勾 选 
其 中 一 种 或 者 几 种 乐器 ， 然 后 播放 ， 这 样 就 可 以 听 到 
该 乐器 在 整个 乐曲 中 单独 演奏 时 的 过 程 。 

在 另外 的 窗口 中 ， 可 以 看 到 每 种 乐器 的 乐谱 中 
包含 的 内 容 ， 比 如 时 间 点 、 音 调 、 长 度 等 。 音 乐 播放 
时 ， 这 个 窗口 中 的 条 目 会 跟着 滑动 告诉 你 当前 该 乐器 
正在 演奏 哪个 条 目 。“ 条 目 ”的 专业 说 法 其 实 应 该 是 
“MIDI Event”， 如 图 8-50 所 示 。 

有 了 乐谱 、 乐 手 之 后 ， 必 然 还 需要 有 乐器 ， 才 能 
演奏 出 对 应 的 曲目 。 可 以 使 用 外 置 的 专业 合成 器 ， 用 
MIDI 接 口 连接 到 声卡 ， 程 序 通过 ALSA 的 Seq 接 口传 
送 解 析 好 的 MIDI Event 流 。 也 可 以 使 用 声卡 内 置 的 合 
成 器 (或 使 用 软 / 硬 波 表 合 成 或 使 用 FM 合成 ) ， 此 时 
程序 需要 使 用 ALSA 暴 露 的 Raw MIDI 接 口 来 访问 ， 也 
就 是 程序 需要 在 代码 中 对 比如 /dev/snd/midiC0D0 设 备 
进行 Open 和 Write。 那 么 ， 如 果 声 卡 不 支持 合成 器 ， 
只 支持 最 基本 的 PCM 数 字音 频 流 播放 〈 如 果 连 PCM 
都 不 支持 那 就 没有 声卡 了 ， 声 卡 必 须 支持 某 种 播放 方 
式 ) ， 难 道 我 们 就 无 法 欣赏 MIDI 音 乐 了 ? 非 也 。 可 以 
利用 软件 方式 来 合成 出 对 应 的 音符 ， 也 就 是 所 谓 的 软 


合成 器 (更 多 人 习惯 称 之 为 软 波 表 ， 其 实 应 该 是 软 合 
成 器 更 准确 ) 。 软 合成 器 也 可 以 接收 乐 手 《MIDI 解 析 
程序 ， 比 如 上 文 的 SynthFont 软 件 ) 发 来 的 MIDI Event 
流 ， 然 后 用 软件 的 方式 ， 从 软 波 表 中 调 取 对 应 的 音符 
采样 值 ， 按 照 MIDI 乐 曲 的 音符 流 ， 将 这 些 采样 值 拼接 
起 来 ， 再 加 上 一 些 后 期 处 理 运 算 ， 生 成 对 应 的 PCM 数 
字音 频 流 ， 然 后 调用 ALSA 的 PCM 接 口 发 送 给 声卡 播 
放 ， 一 样 可 以 实现 MIDI 奏 乐 。 

如 图 8-51 左 侧 所 示 ， 微 软 Windows 操 作 系统 自 
带 了 一 个 软 合 成 器 ， 称 为 Microsoft GS Wavetable 
Synth， 该 名 称 意味 着 该 合成 器 通过 读 取 软 波 表 来 合 
成 音符 。 当 然 ， 有些 电 脑 音 乐 从 业者 认为 系统 自 带 的 
软 合成 器 的 软 波 表 音色 不 给 力 ， 合 成 器 程序 的 后 期 处 
理 也 不 给 力 。 想 用 其 他 厂商 编写 的 软 合成 器 ， 比 如 
YAMAHA、Roland 等 ， 那 就 可 以 安装 它们 的 程序 包 。 
这 些 程序 会 向 系统 中 安装 对 应 的 驱动 程序 ， 后 者 注册 
对 应 的 设备 ， 从 而 在 系统 的 声音 配置 界面 下 拉 框 中 就 
会 出 现 多 个 选择 ， 从 而 可 以 选择 默认 的 MIDI 输 出 设 
备 ， 如 图 8-51 右 侧 所 示 。 

在 SynthFont 软 件 的 配置 界面 中 ， 可 以 选择 用 哪个 
合成 器 来 播放 MIDI。 如 图 8-52 所 示 ， 初 始 时 只 有 系统 
自 带 合 成 器 可 选 。 但 是 冬瓜 哥 安装 了 一 个 叫 作 Yoke 的 
MIDI 软 合成 器 之 后 ， 再 次 进入 配置 界面 就 会 看 到 多 出 
了 很 多 MIDI 输 出 设备 可 选 。 至 于 Yoke 为 什么 要 向 系 
统 中 注册 8 个 设备 ， 这 个 是 由 与 其 配套 的 乐 手 程序 的 
设计 而 决定 的 ， 具 体 不 得 而 知 。 这 就 像 有 的 乐 手 喜欢 
用 某 个 品牌 合成 器 ， 用 其 他 的 也 可 以 ， 只 是 不 顺手 而 
已 。Yoke 合 成 器 是 配合 Roland 乐 手 程序 和 对 应 的 软 波 
表 一 同 使 用 的 ， 但 是 SynthFont 一 样 可 以 通过 Yoke 播 放 
MIDI 乐 曲 。 不 过 说 实话 ， 如 果 只 听 虫 儿 飞 mid 的话 ， 
音色 几乎 没 区别 。MIDI 音 乐 的 效果 ， 更 多 取决 于 采 
用 的 软 波 表 中 的 音色 采样 的 质量 。 软 波 表 的 格式 并 不 
是 标准 格式 ， 不 同 软 合成 器 附带 的 波 表格 式 可 能 都 不 
同 ， 毕 竟 ， 谁 也 不 想 让 自己 的 成 果 免 费 让 别人 用 。 

智能 手机 上 有 一 些 钢琴 即时 演奏 程序 ， 其 本 质 上 
就 是 将 乐谱 展示 出 来 ， 让 用 户 随 着 乐谱 按键 ， 然 后 触 
发 对 应 的 合成 器 合成 出 对 应 声音 ， 将 手机 变 成 了 一 个 
以 触摸 屏 为 人 机 交互 接口 的 电子 乐器 。 


8.1.6 独立 声卡 的 没落 


一 些 软 合成 器 + 软 波 表 方 案 生成 的 音乐 质量 ， 可 
以 赶 上 专业 的 外 置 合成 器 ， 因 为 目前 Host 端 的 主 CPU 
的 算 力 越 来 越 强 ， 用 来 合成 音符 耗费 的 运算 对 主流 
CPU 来 讲 简直 不 值 一 提 。 

不 仅 如 此 ， 一 些 软 的 效果 器 也 层出不穷 。 我 们 前 
文中 介绍 过 ， 声 卡 上 的 DSP 芯 片 的 作用 就 是 将 数字 音 
频 信 号 进行 重新 计算 生成 各 种 音效 ， 比 如 调整 音频 频 
谱 中 各 种 频率 成 分 的 比重 〈 均 衡器 ) 、 实 现 3D 临 场 音 
效 (EAX、A3D 等 标准 ) 、 环 绕 声 等 。 那 么 这 些 计 算 
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图 8-49 5 种 乐器 演奏 出 虫 儿 飞 


тети (t JL mid* 


BorBeat Tick 

0001:001:000000 
000M:001:000000 
0002:001.000000 
0002:001:000240 
0002:002 000000 
0002:002 000240 
On02003000000 
0002003000005 
0002:003 000235 
0002:003 000240 
0002:004 000000 


т 
m 
м 
в 
та 
тз 
м 
м 
91 
тз 
та 
тг 
n 
73 
м 
в 
73 
[Л 
= 
тз 
7 
м 
м 
Е] 


图 8-50 ”乐器 的 MIDI Event 流 窗口 
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8-51 软 合成 器 示意 图 
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是 否 也 可 以 放 在 Host 端 ， 由 软件 来 完成 呢 ? 一 样 是 可 
以 的 ， 其 可 以 放 在 应 用 程序 中 完成 。 

比如 现在 几乎 所 有 音乐 播放 器 都 支持 均衡 器 ， 
实际 上 ， 它 们 几乎 都 是 软 均衡 器 。 均 衡器 处 理 模块 也 
可 以 被 放置 在 声卡 驱动 程序 中 执行 ， 然 后 提供 配置 工 
具 〈 如 图 8-53 所 示 ) ， 此 时 这 款 声 卡 也 可 以 堂而皇之 
地 说 : “我 支持 硬 均衡 ! ”其 实 此 时 该 均衡 器 本 质 还 
是 软 的， 只 不 过 换 了 个 地 方 来 计算 ， 总 之 都 是 靠 Host 
CPU 来 计算 的 。 但 是 你 一 眼 无 法 分 辩 某 声卡 是 软 均衡 
还 是 硬 均衡 。 有 个 办 法 可 以 初步 验证 ， 那 就 是 看 播放 
音乐 时 的 CPU 利 用 率 。 开 启 均衡 器 和 不 开启 均衡 器 ， 
观察 其 CPU 利 用 率 即 可 。 在 驱动 中 实现 均衡 的 另 一 个 
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安装 第 三 方 软 合 成 器 后 SynthFont 界 面 中 多 出 的 选项 


好 处 是 让 用 户 一 劳 永 逸 地 调整 均衡 参数 ， 因 为 所 有 音 
频 都 会 有 相同 的 效果 。 如 果 在 播放 器 程序 中 来 均衡 的 
话 ， 就 不 会 影响 其 他 音源 信号 的 效果 。 看 一 下 物理 硬 
均衡 器 和 软 均衡 器 界面 ， 如 图 8-54 所 示 。 

声卡 内 置 的 硬 均 衡器 可 能 是 模拟 均衡 器 ， 比 如 
早期 声卡 的 FM 合成 时 代 ， 那 时 的 声卡 中 内 置 的 均衡 
器 一 般 都 是 模拟 均衡 器 ， 也 就 是 直接 用 电容 等 器 件 进 
行 滤波 。 现 代 声 卡 内 置 的 均衡 器 都 是 数字 均衡 器 ， 利 
用 内 置 DSP 直 接 计 算数 字 信和 号。 而 软 均衡 器 则 必须 是 
数字 均衡 器 ， 因 为 Host 端 的 程序 处 理 的 一 定 是 数字 信 
号 。 也 存在 物理 上 的 外 置 的 独立 均衡 器 也 有 可 能 是 数 
字 的 〈 先 将 模拟 信号 采样 成 数字 信号 ， 再 用 DSP 运 算 ， 
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图 8-53 


在 声卡 配置 工具 中 调节 均衡 选项 


图 8-54 ”物理 硬 均衡 器 ( 左 ) 和 程序 实现 的 数字 软 均衡 器 界面 ( 右 ) 


然后 转 成 模拟 信号 ) ， 或 者 模拟 的 〈 直 接 用 电容 等 模拟 
电路 来 滤波 ) 。 如 图 8-55 所 示 为 一 些 乐器 的 频段 。 

这 么 说 来 ， 软 合成 器 、 软 效果 器 都 如 此 给 力 了 ， 
还 用 得 着 声卡 这 个 设备 么 ? 直接 用 软 声 卡 是 否 可 以 ? 
声卡 还 是 用 得 着 的 ， 毕 竟 ， 将 数字 量化 值 转换 为 模 
拟 信号 ， 这 种 运算 还 是 需要 做 。CPU 是 否 可 以 连 这 个 
A/D 和 D/A 转 换 的 任务 也 承担 了 ? 理论 上 是 可 以 的 。 
因为 声音 信号 属于 低频 信号 ， 频 率 在 几 十 kHz 级 别 ， 
只 要 采样 频率 和 精度 不 是 太 夸张 的 话 ， 主 CPU 也 可 以 
在 可 接受 的 时 间 内 直接 把 PCM 数 字 量 化 值 通 过 计算 
转换 为 模拟 信号 的 电 平 值 。 这 些 电 平 值 ， 需 要 输送 给 
外 置 的 信号 放大 器 ， 然 后 驱动 喇叭 发 声 。 把 放大 器 也 
集成 到 CPU 内 部 可 以 么 ? 不 可 以 ， 放 大 器 电流 较 大 ， 
与 CPU 集 成 到 一 起 不 好 控制 和 调 校 。 其 实 ， 将 A/D 和 
D/A 转换 模块 放 到 CPU 内 部 也 是 不 合适 的 ， 因 为 整个 
CPU 运行 频率 太 高 ， 其 输出 的 管 脚 信号 都 应 该 运行 在 
数字 域 ， 而 不 要 做 成 数字 、 模 拟 混 布 方式 ， 因 为 模拟 
信号 会 受到 很 大 的 干扰 导致 音质 下 降 。 所 以 ， 起 码 要 
将 A/D 和 D/A 以 及 放大 电路 单独 做 成 一 个 模块 ， 也 就 
是 声卡 。 所 以 ， 声 卡 就 算 再 简单 ， 还 是 需要 存在 ， 
而 不 可 能 直接 用 CPU+ 软 件 就 能 发 出 声音 来 。 人 们 将 
A/D 和 D/A 模块 以 及 放大 模块 统称 为 Coder/Decoder 部 分 


(CODEC) ， 而 将 声卡 的 其 他 部 分 ， 比 如 前 段 IO 控 
制 器 、 运 行 固件 的 嵌入 式 CPU 核心 、 音 频 信号 处 理 专用 
DSP (WA) 等 统称 为 Digital Controller 部 分 。 倒 是 Digital 
Controller 部 分 ， 可 以 被 集成 到 CPU 或 者 IO 桥 中 。 

MIDI 这 种 奏 乐 方式 ， 更 多 还 是 获得 了 音乐 制作 人 
等 专业 从 业者 或 者 发 烧 友 的 青睐 ， 因 为 用 它 奏 乐 编 曲 
太 方便 而 且 有 意思 了 。 然 而 ， 社 会 上 有 多 少 比例 的 音 
乐 人 和 发 烧 友 呢 ? 太 少 了 。 大 部 分 人 还 是 要 听 直 接 录 
音 采 样 的 音频 文件 的 。 正 因 如 此 ， 独 立 声 卡 从 早期 的 
兴盛 ， 到 目前 越 来 越 惨淡 走向 了 没落 。 

大 部 分 电脑 上 的 声卡 都 非常 简单 ， 简 单 到 只 有 : 
前 端 IO 接口 控制 器 (PCIE/USB) 、CODEC、 多 声 
道 Mixer、 放 大 电路 。 前 文中 介绍 的 那些 DSP、 合 成 
器 模块 等 ， 都 是 高 端 声 卡 才 会 加 入 的 模块 。 那 么 ， 如 
此 简单 的 声卡 ， 就 没有 必要 做 成 一 张 单独 的 PCIE AIC 
(Add-In Card) 了 ,干脆 把 它 直 接 焊 到 主板 上 〈 板 
载 ) 算 了 ， 或 者 干脆 把 声卡 的 Digital Controller 部 分 集 
成 到 LIO 桥 中 算 了 ， 这 样 有 利于 降低 成 本 ， 但 是 的 确 
对 声卡 厂商 来 讲 是 个 利空 。 

纵 观 声卡 发 展 史 ， 板 载 阶段 转瞬 即 逝 ，“ 板 载 创 
新 声卡 ”的 主板 县 花 一 现 。 当 时 基本 的 发 展 轨迹 是 直 
接 从 独立 声卡 过 渡 到 了 集成 声卡 阶段 。 
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小 提琴 200Hz~400Hz 影 响 音色 的 丰满 度 ; 1~2KHz 是 拨 弦 声 频 带 ; 6~10KHz 是 音色 明亮 度 。 
中 提琴 150Hz~300Hz 影 响 音色 的 力度 ; 3~6KHz 影 响 音 色 表 现 力 . 

大 提琴 100Hz~250Hz 影 响 音 色 的 丰满 度 ; 3KHz 是 影响 音色 音色 明亮 度 . 

贝斯 提琴 50Hz~150Hz 影 响 音色 的 丰满 度 ; 1~2KHz 影 响 音色 的 明亮 度 。 

双簧管 300Hz~1KHz 影 响 音色 的 丰满 度 ; 5~6KHz 影 响 音 色 明 亮度 ; 1~5KHz 提 升 使 音色 明亮 华丽 。 
钢琴 27.5~4.86KHz 是 音域 频段 。 音 色 随 频率 增加 而 变 的 单薄 ; 20Hz~ 50Hz 是 共振 峰 频 率 。 
Е 32.7Hz~3.136KHz 是 音域 频率 。 小 力度 氢弹 音色 柔和 ; 大 力度 氢弹 音色 丰满 。 
萨克斯 管 bB 100Hz~ 300Hz 是 影响 音色 的 淳厚 感 ， 提 升 此 频段 可 使 音色 的 始 振 特性 更 加 细腻 。 
吉它 100Hz~300Hz 提 升 增加 音色 的 丰满 度 ; 2~5KHz 提 升 增强 音色 的 表现 力 

低音 吉它 60Hz~100Hz 低 音 丰满 ; 60Hz~1KHz 影 响 音色 的 力度 ; 2.5KHz 是 拨 弦 声 频 。 

电 吉 它 240Hz 是 丰满 度 频 率 ; 2.5KHz 是 明亮 度 频 率 3~4KHz 拔 弹 乐器 的 性 格 表现 的 更 充分 。 

电 贝 司 80Hz~240Hz 是 丰满 度 频率 ; 600Н2~ 1KHz 影 响 音色 的 力度 ; 2.5KHz 是 拔 弦 声 频 。 

小 军 鼓 ( 响 弦 鼓 ) 240Hz 影 响 饱 满 度 ; 2KHz 影 响 力度 ( 响 度 ) ; 5KHz 是 响 弦 音频 ( 泛音 区 ) 。 
低音 鼓 60Hz~100Hz 为 低音 力度 频率 ; 2.5KHz 是 敲 击 声 频率 ; 8KHz 是 鼓 皮 泛音 声 频 。 

地 鼓 (ЖЕ) ) 60Hz~150Hz 是 力度 音频 ， 影 响 音色 的 丰满 度 ; 5~6KHz 是 泛音 声 频 。 

$ 250Hz 强 劲 、 坚 韧 、 锐 利 ; 7.5~10KHz 音 色 尖 利 ; 1.2-15КН2® ДЕ "ЕР. 
歌声 ( 男 ) 150Hz~600Hz 影 响 歌声 力度 ， 提 升 此 频段 可 以 使 歌声 共鸣 感 强 ， 增 强力 度 。 

歌声 ( 女 ) 1.6~3.6KHz 影 响 音 色 的 明亮 度 ， 提 升 此 段 频率 可 以 使 音色 鲜明 通 透 。 

语音 800Hz 是 “危险 ”频率 ， 过 于 提升 会 使 音色 发 “ 硬 ”、 发 “ 楞 


沙哑 声 提升 64Hz~261Hz 会 使 音色 得 到 改善 
REE 衰减 600Hz~800Hz 会 使 音色 得 到 改善 


鼻音 重 衰减 60Hz~260Hz， 提升 1~2.4KHz 可 以 改善 音色 。 


齿 音 重 6KHz 过 高 会 产生 严重 具 音 。 
REE 4KHz 过 高 会 产生 咳 音 严重 现象 


大 管 100Hz~200Hz 音 色 丰 满 、 深 沉 感 强 ; 2~5KHz 影 响 音 色 的 明亮 度 。 

小 号 150Hz~250Hz 影 响 音色 的 丰满 度 ; 5~7.5KHz 是 明亮 清脆 感 频带 。 

圆号 60Hz~600Hz 提 升 会 使 音色 和 谐 自 然 ; 强 吹 音色 光辉 ，1~2KHz 明 显 增 强 。 
长 号 100Hz~240Hz 提 升 音色 的 丰满 度 ; 500Hz~2KHz 提 升 使 音色 变 瘤 煌 。 


大 号 30Hz~200Hz 影 响 音色 的 丰满 度 ; 100Hz~500Hz 提 升 使 音色 深沉 、 


厚实 。 


KH 250Hz~1KHz 影 响 音色 的 丰满 度 ; 5~6KHz 影 响 的 音色 明亮 度 。 
黑 管 150Hz~600Hz 影 响 音色 的 丰满 度 ; 3KHz 影 响 音色 的 明亮 度 。 


手 鼓 200Hz~240Hz 共 鸣 声 频 ; 5KHz 影 响 临场 感 。 


通通 鼓 360Hz 影 响 丰 满 度 ; 8KHz 为 硬度 频率 ; 泛音 可 达 10~15KHz。 
萨克斯 管 600Hz~2KHz 影 响 明 亮度 ; 提升 此 频率 可 使 音色 华 彩 清 透 。 


图 8-55 

提示 > 
2001 年 6 月 ，Nvidia 发 布 了 nForce 主板 IO 芯片 
组 ， 其 竟然 集成 了 音频 处 理 专用 DSP， 相 当 于 一 款 


集成 了 高 规格 声卡 的 IO 芯片 组 。Nvidia 称 之 为 APU 
( Audio Processing Unit ) ~ 


集成 声卡 方式 的 推手 非 CPU 厂商 Intel 莫 属 。 因 为 
芯片 的 集成 度 越 来 越 高 ， 这 方面 ，CPU 厂 商 拥有 很 强 
的 生态 控制 权 。 当 然 ，Intel 的 动作 在 一 开始 并 没有 那 
么 大 、 那 么 明显 。 


各 个 乐器 的 各 个 频段 对 音色 的 影响 


1997 年 ，Intel 联 合 几 个 声卡 厂商 ， 推 出 了 Audio 
Codec’ 97 (АС'97) 声卡 架构 标准 。 其 将 声卡 的 数 
字 控 制 器 部 分 和 CODEC 部 分 物理 上 分 离 并 隔离 ， 并 
提出 了 数字 控制 器 和 CODEC 之 间 的 物理 连接 方式 标 
准 : AC-Link (Audio Codec Link) ， 以 及 对 应 的 数据 
传输 格式 等 。 也 就 是 说 ， 在 数字 控制 器 和 CODEC 之 
间 形 成 了 一 个 标准 化 的 MO 网 络 ， 其 名 字 是 AC-Link。 
因为 物理 上 分 开 了 ， 就 必然 出 现 专注 于 做 数字 控制 器 
的 厂商 ， 它 们 研究 各 种 算法 ， 创 造 各 种 新 的 声效 模式 
等 ;以 及 出 现 专门 做 CODEC 的 厂商 ， 它 们 专门 研究 
如 何 更 好 提升 信号 质量 ， 实 现 更 高 的 采样 精度 和 采样 
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率 等 。 那 么 这 两 个 部 分 之 间 必 然 需 要 一 种 标准 交互 
方式 。 

将 数字 控制 器 与 CODEC 部 分 分 开 的 初 囊 是， 将 
数字 部 分 和 模拟 部 分 分 隔 以 保证 更 好 的 信号 质量 。 当 
然 ， 这 只 是 技术 上 的 考量 ， 暗 含 的 目的 其 实 是 将 角色 
拆 分 之 后 ， 对 整个 生态 的 操控 力 就 更 强 了 。Intel 制 定 
了 这 个 标准 ， 让 所 有 角色 来 遵守 ， 这 样 这 个 生态 也 就 
失去 了 活力 。 

但 是 ，AC'97 标 准 并 没有 堂而皇之 地 说 : “以 后 
声卡 厂商 就 做 CODEC 就 行 了 ， 别 做 数字 控制 器 了 ， 
1/O 桥 直接 集成 一 个 差不多 的 就 行 了 ， 通 用 CPU 算 力 
逐年 提升 ， 用 软件 /驱动 计算 声效 、 均 衡 、MIDI 合 成 
也 不 在 话 下 。 至 于 数字 控制 内 部 实现 嘛 ， 嘿 嘿 ， 放 
个 前 端 IO 控制 器 和 后 端的 AC-Link 控 制 器 ， 中 间 加 点 
Buffer 缓 冲 器 和 一 个 运行 固件 的 CPU 核心 ， 或 者 核心 
都 不 用 ， 一 个 简单 的 硬件 状态 机 就 行 啦 ! ”其 实 大 家 
都 心 知 肚 明 。 

如 图 8-56 所 示 为 AC'97 标 准 下 的 声卡 架构 示意 
图 。 有 一 点 需要 强调 的 是 ，AC'97 标 准 并 不 意味 着 
声卡 品质 的 降低 ， 其 只 是 在 试图 将 声卡 控制 器 和 
CODEC 拆 分 。 不 过 ， 这 种 拆 分 的 确 有 一 定 影响 ， 主 
要 体现 在 AC-Link 链 路 的 带宽 以 及 数据 格式 上 的 限 
制 ， 比 如 其 限制 了 采样 率 和 采样 精度 ， 以 及 声 道 数 。 
其 支持 16 或 者 20-bit 采 样 精度 和 5.1 环绕 声 道 ， 支 持 96 
kHz 采样 率 下 的 20-bit 立体 声 采样 精度 ， 不 过 ， 对 于 
多 数 声 卡 来 讲 ， 这 个 规格 在 当时 甚至 现在 也 已 经 足够 
了 。AC'97 标 准 也 并 不 意味 着 独立 声卡 就 此 消失 。 独 
立 声卡 一 样 可 以 遵循 AC'97 标 准 ， 只 要 其 在 卡 上 将 数 
字 部 分 和 CODEC 部 分 分 开 ， 之 间 采 用 AC-Link 标 准 连 
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接 ， 传 送 的 也 是 AC-Link 格 式 的 数据 ， 按 照 AC-Link 的 
物理 层 、 链 路 层 、 网 络 层 、 传 输 层 、 事 务 层 来 交互 数 
据 ， 那 么 这 款 独立 声卡 就 是 一 款 AC'97 标 准 的 声卡 ， 
但 是 其 功能 照样 可 以 很 丰富 ， 比 如 可 以 在 数字 控制 器 
内 加 入 DSP 来 计算 各 种 声效 、 实 现 MIDI 数 字 合成 器 
等 。 而 在 AC'97 标 准 之 前 ， 有 些 独立 声卡 厂商 也 的 确 
已 经 将 数字 控制 器 和 CODEC 分 离 了 ， 只 不 过 没有 使 
用 AC-Link 连 接 ， 而 采用 了 PS (InterIC Sound) 标准 
来 连接 。TS 是 由 飞利浦 公司 制定 的 片 间 音 频 信号 传输 
标准 。 如 图 8-57 所 示 为 历史 上 的 一 些 知名 独立 声卡 上 
使 用 的 符合 AC'97 标 准 的 CODEC 芯 片 。 

AC'97 标 准 也 定义 了 一 些 标准 的 控制 寄存 器 功能 
和 偏 移 量 ， 符 合 AC'97 标 准 的 数字 控制 器 和 CODEC 芯 
片 就 需要 实现 这 些 寄存 器 以 及 对 应 的 控制 功能 。 

最 终 该 标准 取得 了 广泛 应 用 ， 声 卡 厂商 广泛 响 
应 。 当 然 ，AC'97 标 准 随 着 时 间 的 推移 ， 变 成 了 司马 
昭 之 心路 人 皆 知 。 市 场 上 出 现 了 “AcC'97 声 卡 ”， 而 
不 再 说 “创新 声卡 ”“ 帝 盟 声 卡 ”“ 雅 马 哈 声 卡 ” 
了 。“AC'97 声 卡 ” 听 上 去 好 像 就 是 被 集成 在 LO 桥 
芯片 组 中 的 “一 般 声卡 ”一 样 。 声 卡 厂商 的 声誉 ， 
全 都 变 成 了 “一 般 声 卡 ”， 没 了 名 分 ， 生 意 就 更 不 
好 做 了 。 主 板 上 就 算 板 载 了 创新 的 声卡 数字 控制 器 
+CODEC 芯 片 ， 数 字 控 制 器 前 端 用 PCI 与 系统 相连 ， 
但 也 被 说 成 是 “AC'97 声 卡 ”， 只 因为 它 遵 循 了 AC'97 
架构 标准 。 这 样 的 话 ， 好 东西 被 说 成 了 一 般 产品 ， 而 
用 户 也 是 一 头 雾 水 。 就 这 样 ， 板 载 独立 声卡 在 这 种 混 
乱 的 称谓 下 ， 逐 渐 淡 出 了 市 场 。 大 浪 淘 沙 ， 剩 下 的 则 
是 成 本 极 低 、 简 化 的 声音 数字 控制 器 ， 所 有 附加 音效 
等 处 理 都 在 驱动 程序 中 完成 。 因 此 ， 最 终 市 场 上 的 
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图 8-56 AC'97 标 准 下 的 声卡 架构 示意 图 〈 冬 瓜 哥 设计 旁白 : 你 干脆 把 声卡 包 圆 了 吧 ，CODEC 也 自己 做 行 了 。 


(optional) 
FER 


妥 ， 我 怎么 好 意思 都 拿 过 来 呢 ， 怎 么 也 留 点 给 你 啊 ! 来 来 ， 吃 点 吃 点 ! ) 
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图 8-57 独立 声卡 上 使 用 的 AC97 标 准 CODEC 芯 片 


印象 就 是 ，“AC'97 声 卡 ” 就 是 “ 软 声卡 ”。 有 些 功 
E 很 强 的 硬 声卡 由 于 采用 了 AC'97 标 准 设计 ， 用 户 
Ж: “М! AC'97 的 ! 还 这 么 贵 ? ! ”呵呵 ， 你 说 声 
卡 厂 商 被 这 AC'97 标 准 坑 得 该 有 多 苦 。 

顺理成章 ， 终 于 ，Intel 在 其 南 桥 中 集成 了 AC'97 
Audio Controller。 此 时 ， 市 场 上 已 经 有 大 量 的 专门 做 
CODEC 的 公司 ， 主 板 设计 厂商 有 大 量 CODEC 选 择 ， 
成 本 自然 降低 了 很 多 。 从 此 千家 万 户 都 用 上 了 声卡 ， 
加 上 软件 合成 器 、 软 件 效果 器 等 ， 也 都 能 获得 不 错 的 
效果 。Intel 是 希望 看 到 越 来 越 多 的 功能 使 用 CPU 来 运 
算 而 不 是 用 外 置 芯片 来 运算 ， 直 到 今天 也 是 如 此 。 所 
以 ， 这 段 历史 就 是 一 部 CPU 与 外 置 专用 芯片 之 间 的 血 
泪 发 展 史 。 

目前 主流 的 各 品牌 PC 主板 上 集成 的 Codec 芯 片 几 
乎 都 是 Realtek 公 司 的 产品 ， 其 标志 是 一 个 举 着 双 爪 的 
螃蟹 ， 象 征集 成 电路 的 四 通 八 达 。 如 图 8-58 所 示 ， 放 
眼 望 去 全 是 螃蟹 。Realtek 公 司 总 部 位 于 台湾 ， 由 于 PC 
主板 品牌 中 有 很 大 一 部 分 都 是 台湾 厂商 ， 近 水 楼 台 
得 月 ，Realtek 的 芯片 也 就 占据 了 很 大 的 市 场 份额 了 。 

如 图 8-59 左 侧 所 示 ，Intel 当 时 在 其 ICH 南 桥 芯 
片 组 内 置 了 AC'97 Audio Controller， 采 用 AC-Link 连 
接 外 置 的 CODEC 芯 片 。 在 Windows 系 统 中 ， 可 以 看 
到 “Realtek AC97 Audio” 这 个 音频 设备 ， 其 指 的 是 
CODEC， 而 不 是 Audio Controller。 而 Audio Controller 
这 个 设备 ， 可 以 在 设备 管理 器 中 发 现 ， 如 图 8-59 右 
侧 的 箭头 所 示 。 此 时 ， 这 个 系统 相当 于 这 样 一 种 结 
构 ，Realtek 的 AC'97 CODEC 通 过 Intel 的 AC'97 Audio 


Controller 接 入 系统 ， 是 不 是 眼熟 呢 ? 其 与 “SAS 硬 盘 
通过 SAS IO Controller 接 入 系统 ”一 样 ， 根 本 就 是 同 
一 种 架构 了 。 所 以 ，Audio ГО Controller 需 要 有 LLDD 
了 驱动， 而 CODEC 作 为 一 个 使 用 AC-Link 挂 接 在 其 后 的 
设备 ， 也 需要 有 自己 的 Device Driver。 于 是 ， 系 统 中 
便 会 出 现 两 个 设备 ， 一 个 是 PCI 设 备 ， 一 个 是 AC'97 
AC-Link Audio 设 备 ， 或 者 直接 说 AC'97 Audio 设 备 。 
下 面 我 们 来 看 看 一 款 2 声 道 的 Realtek 公 司 的 
AC'97 CODEC 产 品 的 部 分 产品 说 明 。 这 里 直接 引用 
了 官方 的 英文 描述 。The ALC250 CODEC supports 
host/soft audio from Intel ICHx chipsets as well as audio 
controller based VIA/SIS/ALI/AMD/nVIDIA/ ATI 
chipsets. Bundled Windows series drivers (Windows 98/ 
ME/NT/2000/XP), ЕАХ/ Direct Sound 3D/ I3DL2/ АЗР 
compatible sound effect utilities (supporting Karaoke, 26 
types of environment sound emulation, 10-band software 
equalizer), HRTF 3D positional audio and Sensaura™ 
3DPA (optional) provide an excellent entertainment 
package and game experience for PC users. In addition, 
the ALC250 is embedded with a 7-band digital hardware 
equalizer to optimize speaker frequency response for 
mobile PCs. 可 以 看 到 ， 其 大 部 分 功能 都 是 靠 CODEC 
的 驱动 程序 来 完成 的 ， 这 就 是 所 谓 软 声卡 的 含义 。 
不 过 ， 其 的 确 也 提供 了 内 置 的 7-band digital hardware 
equalizer 均 衡器 ， 因 为 其 可 以 被 用 于 手机 移动 终端 ， 
手机 上 的 CPU 的 算 力 不 如 PC， 所 以 其 提供 了 一 定 的 
硬 加 速 功能 。 手 机 上 的 音频 设置 或 者 播放 器 内 的 均 
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衡器 ， 调 用 的 都 是 CODEC 内 部 的 硬件 ， 也 就 是 通过 
向 对 应 的 寄存 器 写 入 对 应 值 来 控制 的 。CODEC 上 有 
一 堆 参 数 配置 寄存 器 ， 这 些 寄存 器 会 被 关联 到 Audio 
Controller 前 端 暴 露 在 系统 地 址 空间 中 的 寄存 器 地 址 
上 ， 这 样 驱动 程序 通过 写 入 这 些 地 址 就 可 以 控制 硬件 


的 各 种 行为 和 参数 。 


如 图 8-60 所 示 为 某 AC'97 控 制 器 内 部 架构 图 ， 篇 
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图 8-59 Intel 早 期 ICH 南 桥 上 集成 了 AC'97 控 制 器 


幅 所 限 ， 请 大 家 自行 观赏 体会 。 

2004 年 ，Intel 推 出 了 HD (High Definition) Audio 
标准 ， 其 架构 类 似 ， 还 是 Audio Controller 与 CODEC 
分 离 的 模式 ， 但 是 两 者 之 间 的 接口 由 AC-Link 变 为 
HD Audio Link, 


与 AC-Link 没 有 任何 相关 性 ， 是 一 


套 全 新 的 自 底 向 上 大 幅 变 化 的 接口 ， 从 物理 层 到 事 


务 层 全 都 发 生 了 变化 。 而 且 这 套 架 构 变 得 与 第 7 章 中 
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图 8-60 某 AC'97 控 制 器 内 部 架构 图 


介绍 的 存储 网 络 IO 架构 越发 类 似 。 比 如 从 Intel HD 
Audio Spec 中 截取 的 一 段 : After link reset, and during 
initialization, the link protocol provides each codec on the 
link a unique ID. This process is described in Section 5.5.3 
After the controller has been initialized and the software 
driver loaded, the software queries each ID on the link to 
determine the capabilities of the corresponding codec. Hot 
plugging of codec is supported for docking solution. 

在 HD Audio Link 上 传递 的 数据 也 是 有 特定 格 
АМ, ИЯ жж РОЗВ ОМ, HD Audio 
Controller 在 前 端 与 Host RAM 之 间 的 数据 交互 方式 也 
全 面 转向 了 与 存储 或 者 网 络 IO 类 似 的 环形 队列 +IO 
Descriptor 的 手法 。Intel HD Audio 标 准将 前 端 HD Audio 
Controller 以 及 后 端 CODEC 的 寄存 器 和 编程 方式 做 了 
严格 规范 ， 规 定 了 一 些 必须 实现 的 寄存 器 接口 功能 。 
这 样 就 更 有 利于 形成 标准 的 通用 驱动 程序 。 
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如 图 8-61 所 示 为 Intel IO 桥 中 集成 的 各 种 IO 控制 
器 ， 其 中 就 有 HD Audio Controller。 

如 图 8-62 所 示 为 在 Windows10 操 作 系 统 中 看 到 的 
HD Audio Controller 设 备 以 及 Realtek HD Audio CODEC 
设备 。 这 与 SAS 卡 和 SAS 硬 盘 的 显示 方式 相同 ，SAS 卡 
会 被 显示 到 存储 控制 器 类 别 中 ， 而 通过 SAS 卡 识别 到 
的 SAS 硬 盘 则 会 被 显示 在 硬盘 驱动 器 类 别 中 ， 一 个 是 
DO 控制 器 ， 一 个 是 控制 器 后 挂 的 最 终 设备 。 

HD Audio Controller 和 CODEC 的 各 方面 规格 要 高 
不 少 ， 但 是 一 些 对 声音 特效 的 处 理 ， 依 然 采用 软件 方 
式 。 比 如 Windows 操 作 系统 下 ， 采 用 Audio Processing 
Objects (APO) 驱动 来 实现 声音 处 理 ， 驱 动 程序 开发 
者 按照 APO 提 供 的 接口 和 编程 方式 ， 可 以 实现 自己 的 
APO。 这 些 APO 可 以 利用 Host CPU 来 运算 处 理 声效 ， 
也 可 以 发 送 特定 命令 和 数据 给 声卡 中 〈 如 有 ) 的 DSP 
处 理 器 来 处 理 ， 后 者 这 种 APO 被 称 为 Proxy APO, 
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8-61 Intel IJO 桥 中 集成 的 HD Audio Controller (Ё 2) 
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8-62 HD Audio Controller 和 CODEC 在 Windows10 设 备 管理 器 中 的 展示 方式 
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8.2 图 形 处 理 系统 


说 到 计算 机 图 形 处 理 ， 冬 瓜 哥 就 有 种 克制 不 住 的 
兴奋 。 为 何 ? 冬瓜 哥 是 一 个 3D 游 戏 的 画面 党 ， 沉 醇 
于 欣赏 诸如 《孤岛 危机 》 系 列 、《 神 秘 海域 》 系 列 、 
《地 铁 》 系 列 等 游戏 中 展现 出 来 的 极为 精细 真实 的 实 
时 泻 染 的 画面 。 这 也 算是 冬瓜 哥 烧 的 另 一 种 东西 吧 ， 
不 过 这 个 真得 花 不 少 钱 ， 一 块 消费 级 顶级 显卡 当前 市 
场 价 为 5000 一 6000 元 ， 而 冬瓜 哥 为 了 省 钱 ， 一 般 是 隔 
一 代 甚 至 三 代 烧 一 次 ， 然 后 重 玩 一 遍 之 前 最 高 特效 下 
无 法 流畅 执行 的 游戏 。 冬 瓜 哥 的 一 个 梦想 就 是 有 朝 一 日 
一 定 要 组 装 一 台 4 路 顶级 显卡 交火 (SLI/CrossFire) 的 机 
器 ， 以 最 高 特效 、4k 分 辨 率 ， 流 畅 运行 所 有 游戏 。 

然而 ， 在 欣赏 这 些 画 面 的 同时 ， 冬 瓜 哥 心底 一 直 
藏 着 的 那个 大 大 的 问号 ， 也 终于 忍 不 住 爆 发 了 : 计算 
机 到 底 是 怎么 生成 这 些 棚 棚 如 生 、 视 角 能 够 跟随 鼠标 
移动 而 动态 变化 的 3D 图 像 的 ? 本 节 ， 欢 迎 与 冬瓜 哥 共 
同 探索 计算 机 图 形 学 这 个 奇妙 的 领域 。 

首先 ， 请 大 家 翻 回 到 第 2 章 的 图 2-10 及 其 下 方 的 
文字 ， 以 及 第 5 章 的 5.4.8 节 回顾 一 下 。 我 们 的 旅程 就 
从 这 里 开始 ， 从 如 何 向 1920X 1080 个 液晶 发 光 体 (一 
个 1080P 分 辩 率 的 液晶 显示 器 ) 上 发 送信 号 让 每 个 发 
光 体 都 显示 出 对 应 的 颜色 和 灰 度 值 开始 。 

在 第 2 章 中， 我 们 异想天开 地 将 一 个 数码 管 直接 
接 到 了 CPU 内 部 的 某 个 数据 寄存 器 上 ， 只 要 向 该 寄存 
器 写 入 对 应 的 值 ， 数 码 管 译 码 之 后 就 显示 对 应 的 字 
形 ， 而 且 还 专门 设计 了 一 条 指令 : Disp。 执 行 这 条 指 
令 其 实 就 是 将 数据 写 入 到 这 个 挂 接着 数码 管 的 数据 寄 
存 器 。 其 实 ， 这 并 非 异想天开 ， 计 算 机 显示 图 形 的 机 
制 在 最 底层 其 实 就 是 这 样 的 ， 只 不 过 更 精妙 更 高 雅 一 
些 。 所 以 ， 一 定 要 记 住 这 个 本 质 : 将 要 显示 的 数据 写 
入 某 个 暂 存 处 ， 由 某 种 机 制 将 其 译 码 ， 然 后 翻译 成 能 
让 发 光 体 发 光 的 信号 ， 输 送 到 发 光 体 发 光 ， 就 是 这 样 
一 个 过 程 。 我 们 不 妨 将 这 个 数据 暂 存 处 称 为 显示 存储 
器 ， 或 者 干脆 叫 显存 (Video КАМ) 。 显 然 ， 将 不 同 的 
数值 写 入 该 存储 器 ， 就 会 得 到 不 同 的 显示 形状 /颜色 ， 
如 果 按照 一 定 的 速率 有 规律 地 向 其 中 写 入 不 同 的 值 ， 
那么 就 可 以 得 到 动态 变化 的 图 像 ， 也 就 是 动画 。 


那么 ， 现 在 思考 一 下 ， 想 让 一 个 有 1920X 1080 个 
发 光 体 〈 俗 称 像素 ) 的 发 光 体 阵列 〈 显 示 屏 ) 显示 对 
应 颜色 的 话 ， 每 个 发 光 体 的 颜色 + 灰 度 采用 32 位 来 量 
化 表示 ， 那 么 就 需要 一 块 8MB 的 显存 来 存放 一 屏幕 的 
信息 。 只 要 将 对 应 的 颜色 + 灰 度 编码 值 写 入 这 8MB 的 
Video RAM 中 ， 就 可 以 改变 屏幕 上 的 对 应 位 置 的 发 光 
体 的 颜色 和 灰 度 ， 只 要 以 足够 的 速度 写 入 对 应 位 置 ， 
改变 这 些 像素 的 颜色 值 ， 就 可 以 生成 动态 的 图 像 了 ， 
如 图 8-63 所 示 。 

然后 呢 ? 然后 ， 你 得 思考 一 下 。 在 上 一 节 介 绍 声 
音 播放 时 ， 曾 经 提 到 过 DAC 这 个 模块 ， 其 将 数字 信号 
翻译 成 电 平 值 。 同 理 ， 要 显示 图 像 ， 也 必须 有 一 个 能 
够 将 数字 信号 翻译 成 红 、 绿 、 蓝 (RGB) 三 原色 比例 
值 以 及 灰 度 值 的 DAC 模 块 。 


在 早期 的 时 候 ， 程 序 向 显存 中 写 入 的 并 不 是 
RGB 三 原色 的 分 量 二 进 制 值 ， 而 仅仅 是 一 个 序号 ， 
这 些 序号 的 长 度 从 1 位 到 12 位 不 等 。 每 个 序号 表示 
了 一 种 颜色 ，1 位 只 能 表示 一 种 颜色 ， 也 就 是 单 色 
模式 。 如 果 这 个 值 是 8 位 长 ， 那 么 可 以 表示 256 种 颜 
色 ， 俗 称 256 色 。DAC 模 块 内 部 需要 保存 像素 的 颜 
色 序 号 与 对 应 的 RGB 分 量 成 分 比例 值 的 对 应 关系 ， 
RGB 分 量 值 被 存储 在 其 内 部 集成 的 一 小 片 SRAM 
中 。 实 际 上 ， 控 制 模块 直接 利用 像素 点 的 序号 值 来 
索引 该 SRAM 存 储 器 的 对 应 行 ， 该 行 中 存储 的 就 是 
对 应 该 序号 的 RGB 分 量 的 比例 信息 ， 这 种 映射 关 
系 被 称 为 色谱 ， 或 者 说 调 色 板 。 那 么 ， 色 谱 在 所 有 
厂商 的 产品 中 是 固定 值 么 ? 并 不 见得 ， 因 为 颜色 
相对 声音 来 讲 ， 有 较 强 的 主观 性 ， 声 音 的 频率 一 
定 ， 声 调 就 是 一 定 的 ， 而 对 于 颜色 而 言 ， 多 红 算 是 
“ 红 ”， 这 比较 主观 ， 虽 然 有 一 些 标准 的 比 色 卡 。 
自然 界 的 色谱 是 连续 的 ， 不 同 厂商 可 能 会 在 色谱 中 
选取 各 自 认为 正确 的 颜色 ， 从 而 生成 对 应 的 色谱 RGB 
比例 ， 存 储 到 DAC 的 SRAM 中 。 正 因 如 此 ， 人 们 将 其 
称 为 RAMDAC ( 带 有 SRAM 存 储 色谱 的 DAC ) 。 


如 图 8-63 右 侧 就 是 早期 的 独立 RAMDAC 芯 片 ， 当 
然 ， 在 当代 的 显示 系统 中 ， 该 角色 依然 存在 ， 只 不 过 
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早已 被 集成 到 显示 控制 芯片 内 部 的 某 个 不 起 眼 的 角落 
中 了 ， 而 且 也 不 再 使 用 调 色 板 方式 来 显示 颜色 〈 但 是 
仍然 保留 了 调 色 板 以 保持 兼容 性 ) ， 而 是 直接 接收 显 
存 中 已 经 被 程序 写 好 的 颜色 值 。 比 如 16 位 高 彩色 或 者 
32 位 真 彩色 ， 是 指 这 16 位 或 者 32 位 中 会 直接 给 出 RGB 
的 分 量 值 ，DAC 直 接 根 据 其 中 的 RGB 字段 的 二 进 制 
值 翻译 成 模拟 电压 值 ， 不 用 查 调 色 板 。 具 体 采 用 哪 种 
色彩 编码 方式 ， 可 以 在 显示 设置 界面 中 调节 ， 不 过 现 
在 的 最 新 操作 系统 已 经 不 让 你 调节 了 ， 没 有 人 愿意 看 
到 只 有 256 种 色彩 组 成 的 图 片 。 按 照 序号 查 色谱 输出 
颜色 被 称 为 索引 色 ， 程 序 直接 给 出 颜色 值 则 称 为 直接 
色 ， 目 前 几乎 所 有 系统 都 采用 直接 色 方式 运作 。 使 用 
索引 色 有 个 麻烦 之 处 在 于 ， 不 同系 统 的 调 色 板 是 不 同 
的 ， 一 旦 有 不 匹配 和 兼容 性 问题 ， 则 会 导致 如 图 8-64 
最 右 侧 所 示 的 调 色 混乱 的 情况 出 现 。 

然后 呢 ? RAMDAC 输 出 的 模拟 信号 ， 怎 么 输出 
给 显示 屏 ? 那 当然 是 要 将 每 个 像素 点 的 RGB 分 量 的 模 
拟 信号 直接 输送 给 每 个 发 光 体 前 端的 电路 ， 后 者 按照 
比例 值 生成 对 应 的 电流 去 点 亮 单个 发 光 体 上 红 绿 蓝 色 
片 背 后 的 微型 LED 灯 (具体 见 第 5 章 5.4.8 节 ) ， 从 而 
生成 对 应 的 颜色 。 


LED 显 示 屏 有 一 个 总 的 照明 灯 ， 照 亮 整 个 屏幕 。 
每 个 像素 格 上 有 红 绿 蓝 三 个 色 片 ， 通 过 用 不 同 强度 的 
电流 来 刺激 每 个 色 片 后 面 所 充 入 的 液晶 体 ， 从 而 控 
制 液晶 体 的 偏振 角度 以 控制 其 透 光度 ， 最 终 控制 该 
像素 格 的 红 绿 蓝 亮度 比例 ， 而 控制 该 像素 对 外 显示 
的 颜色 。 这 个 过 程 可 参见 第 5 章 的 图 5-43 所 示 。 


4-color 16-color 256-color 
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那么 ，1920X1080=2 073 600， 每 个 像素 格 还 需 
要 3 根 线 来 给 出 RGB 的 成 分 相对 值 ， 那 么 总 共 需 要 6 
220 800 根 线 。 这 些 导 线 如 果 放 到 芯片 内 部 ， 并 不 会 有 
什么 问题 ， 但 是 如 果 是 芯片 之 间 ， 或 者 RAMDAC 与 
独立 显示 屏 之 间 通 过 线 线 连接 的 话 ， 这 将 会 是 梦 履 。 
显然 不 能 这 么 搞 ， 必 须 得 将 这 些 信号 串 行 而 不 是 并 行 
地 传输 到 显示 屏 前 端 电 路 中 ， 为 此 有 一 些 显 示 信号 传 
输 标准 出 炉 ， 比 如 VGA、DVI、HDMI 等 。 

图 8-65 所 示 为 VGA 接 口 的 信号 定义 。 可 以 看 到 红 
绿 蓝 三 种 信号 的 强度 值 分 别 从 #1、 殷 、# 针 和 孔 输出 。 
那么 ， 按 照 什么 速度 来 输出 每 个 像素 的 RGB 值 呢 ? 
这 取决 于 显示 屏 的 分 辩 率 (像素 数量 ) 以 及 刷新 率 。 
早期 的 CRT 显 示 器 由 于 电子 枪 不 断 扫描 ， 扫 过 去 的 像 
素 就 不 再 发 光 了 ， 利 用 每 秒 扫 描 几 十 次 (这 个 次 数 就 
被 称 为 刷新 率 ) 全 屏幕 而 产生 视觉 暂 留 效 果 来 成 像 ， 
所 以 你 能 够 感觉 到 屏幕 很 “ 晃 眼 ”。 冬 瓜 哥 的 眼睛 
就 是 小 时 候 离 着 CRT 电 视 太 近 导 致 长 期 视觉 疲劳 ， 最 
后 发 展 为 600 度 的 近视 。LED 显 示 器 高 级 了 许多 ， 其 
内 部 可 以 锁 住 每 个 像素 的 上 一 时 刻 的 值 ， 从 而 保持 每 
个 像素 点 的 颜色 不 变 ， 所 以 看 LED 显 示 器 没有 任何 闪 
烁 ， 就 是 这 个 道理 。 但 是 LED 显 示 器 依然 需要 一 定 的 
刷新 率 ， 因 为 图 像 是 在 不 断 变化 中 的 ， 比 如 动 了 一 下 
鼠标 ， 这 个 变化 需要 尽快 传送 到 显示 器 ， 所 以 目前 的 
LED 显 示 器 刷新 率 基 本 都 在 60 Hz (也 有 为 游戏 发 烧 
友 准 备 的 超过 140Hz 刷 新 率 的 产品 》， 只 要 你 动 鼠 标 
的 频 度 不 超过 每 60 次 / 秒 ， 就 能 够 保证 鼠标 的 图 形 不 会 
在 屏幕 上 产生 虚 影 。 

所 以 ， 根 据 刷新 率 和 分 辨 率 〈 每 行 / 列 的 像素 值 ， 
PC 设置 如 图 8-66 所 示 ) ， 就 可 以 计算 出 每 隔 多 长 时 
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8-64 不 同 颜色 数 对 应 的 图 片 效 果 对 比 
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间 传 送 下 一 个 像素 点 的 RGB 值 。 比 如 每 行 1920 个 像 
素 点 ， 每 列 1080 个 像素 点 ， 刷 新 率 60 Hz， 那 么 ， 扫 
描 每 一 行 的 时 间 =(1/60)/1080=1.54X105 秒 ， 那 么 扫描 
每 个 像素 的 时 间 就 是 1.54X105/1920=8.04X103 秒 。 
等 价 于 RGB 信 号 每 秒 要 变化 124416000 次 ， 也 就 是 
124.416 百 万 次 。 发 送信 号 的 一 方 就 需要 用 这 个 时 钟 频 
率 来 驱动 发 送 电 路 从 RAMDAC 中 依次 读 取 每 个 像素 
的 RGB 值 输送 到 VGA 接 口 对 应 针 孔 上 。 接 收 端 (显示 
器 端 ) 也 需要 按照 相同 的 频率 对 RGB 针 孔 上 的 电 平 值 
进行 采样 ， 然 后 输送 到 LED 控 制 电路 来 改变 每 个 像素 
点 的 颜色 。 那 么 ， 接 收 端 是 怎么 知道 当前 正在 发 送 的 
RGB 值 是 哪个 位 置 上 的 像素 的 呢 ? 如 何 定 界 ? 为 此 ， 
VGA 接 口上 给 出 两 个 信号 : H-SYNC 和 V-SYNC， 也 
就 是 行 同步 信号 和 场 同 步 信 号 。 发 送 方 每 开始 传送 一 
行 像素 的 首 个 像素 之 前 ， 先 要 将 H-SYNC 信 号 从 低 电 
平 变 为 高 电 平 ， 持 续 对 应 的 一 段 时 间 (不 同 分 辨 率 
和 刷新 率 下 该 时 间 不 同 ， 该 时 间 被 称 为 行 消 隐 ) 之 
后 ， 开 始 按照 对 应 频率 传送 该 行 每 个 像素 的 RGB 值 ， 
整 行 像素 传送 完毕 后 ，H-SYNC 再 持续 一 段 时 间 ， 然 
后 被 拉 低 ， 持 续 这 个 过 程 。 这 样 ， 接 收 端 通过 检测 
H-SYNC 信 号 的 步调 ， 就 知道 从 什么 时 候 开 始 要 传送 
一 整 行 像素 了 。 那 么 ， 接 收 方 又 是 怎么 知道 当前 传送 
的 这 行 像 素 ， 是 位 于 屏幕 的 第 几 列 上 的 呢 ?” 这 就 该 
V-SYNC 信 号 发 挥 作用 了 。 你 应 该 想到 了 ， 每 次 传送 
一 整 屏 信 号 之 后 ， 就 将 该 信号 拉 低 ， 然 后 再 次 从 屏幕 
的 第 一 行 的 第 一 个 像素 开始 传 。 所 以 ，H-SYNC 信 号 
每 传 一 行 变 一 次 ，CRT (显示 器 ) 接收 到 该 信号 就 需 
要 将 电子 枪 在 Y 竖 直 轴 方向 偏转 一 行 ，V-SYNC 每 传 
一 屏 变 一 次 ， 接 收 方 只 要 看 到 V-SYNC 变 化 了 ， 就 知 
道 一 屏 结束 、 新 的 一 屏 开 始 了 ， 就 需要 将 电子 枪 在 Y 
轴 方 向 大 跨越 归 位 返回 ， 重 新 开始 扫描 ， 同 时 重新 开 
始 数 数 〈 利 用 各 种 计数 器 ) ， 每 接收 一 行 的 数据 ， 相 
应 的 计数 器 就 +1， 电 子 枪 换行 ， 一 直达 到 对 应 的 列 
数 ， 就 需要 准备 去 采样 VSYNC 信 号 ， 从 而 做 到 帧 同 
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图 8-66 ”刷新 率 和 分 辨 率 设 置 


步 了 。 人 们 将 每 一 整 屏 的 信号 称 为 一 帧 。V_SYNC 信 
号 又 可 以 被 称 为 帧 同步 信号 ， 或 者 垂直 同步 〈 因 为 其 
每 传 完 一 列 /一 屏 就 变 一 次 ) 信号 。 至 于 “ 场 同步 ”中 
“ 场 ” 字 的 意思 ， 英 文 叫 作 Field SYNC，Field 就 是 指 
整个 屏幕 区 域 的 意思 ， 就 是 指 帧 同步 。 帧 、 屏 幕 、 区 
域 、 列 ， 在 这 里 是 同一 个 意思 。 


显示 器 每 秒 扫 描 过 的 行 数 被 称 为 行 频 ， 每 秒 扫 


描 过 的 屏幕 数 被 称 为 场 频 ， 或 者 帧 频 。 每 秒 扫描 过 
的 像素 数 则 被 称 为 点 频 。 


由 于 老式 CRT 电 子 枪 显示 器 早已 被 淘汰 ， 那 么 
像 显 示 器 传递 模拟 信和 号 的 必要 性 就 没有 了 。 新 式 的 
视频 接口 有 多 种 ， 比 如 DVI、HDMI、Display Port、 
Type-C 等 ， 让 人 眼花 练 乱 。 但 是 它们 传递 的 都 是 数字 
信号 了 ， 当 然 ， 不 是 像素 颜色 量化 值 信号 ， 而 是 翻译 
成 RGB 分 量 信息 〈 还 有 一 些 其 他 用 于 描述 颜色 的 方式 
比如 YCbcr 方 式 ， 请 自行 了 解 ) 的 数字 信号 。 至 于 这 
些 视 频 接口 的 运作 方式 、 时 序 等 ， 由 于 篇 幅 所 限 就 不 
多 介绍 了 。 

再 然后 呢 ? 将 显存 、RAMDAC/DAC、 视 频 接口 
模块 这 三 个 部 件 ， 或 者 安置 到 计算 机 主板 上 ， 或 者 先 
将 它们 集成 到 一 张 单独 的 IO 卡 上 ， 然 后 让 这 张 卡 再 
通过 某 种 总 线 ， 比 如 ISA、PCI、PCIE， 接 入 到 系统 
总 线 。 卡 上 的 显存 通过 ISA 或 者 PCIPCIE 映 射 到 系统 
全 局 地 址 空间 ， 程 序 向 该 空间 写 入 对 应 颜色 值 ，DAC 
不 断 地 从 显存 中 读 取 颜色 数据 翻译 成 模拟 信号 值 然 后 
向 视频 端口 输出 ， 整 个 过 程 循环 进行 ， 显 示 屏 上 就 可 
以 持续 显示 出 动态 的 图 形变 化 了 。 这 张 独立 的 卡 ， 被 
称 为 显示 控制 器 ， 或 者 显示 卡 ， 或 者 俗称 显卡 。 

8? 难道 冬瓜 哥 砸 锅 卖 铁 要 买 的 就 是 这 样 一 张 东 
西 ， 竟 然 价值 数 千 块 ? 非 也 ， 这 只 是 最 初等 的 显卡 ， 
程序 写 入 什么 值 它 就 显示 什么 颜色 ， 其 他 啥 都 不 干 。 


有 些 显 卡 可 以 加 速 图 形 的 生成 过 程 ， 后 续 你 就 会 知 
道 了 。 

在 20 世 纪 早 期 ， 人 们 并 不 叫 它 们 为 显卡 ， 而 是 称 
之 为 帧 缓冲 器 (Frame Buffer) ， 如 图 8-67 所 示 。 的 
确 ， 其 作用 也 就 是 如 此 。 帧 缓冲 器 的 确 是 历史 上 的 第 
一 个 显卡 形态 。 后 续 的 显卡 ， 就 是 在 其 上 增加 各 式 各 
样 的 功能 。 


图 8-67 早期 的 Sun TGX 帧 缓冲 器 


画板 (显示 屏 〉 准备 好 了 ， 画 笔 《 电 子 枪 ) 也 
准备 好 了 ， 笔 杆子 〈 视 频 接口 ) 也 有 了 。 然 后 呢 ? Ж 
后 就 需要 你 来 当 画家 作画 啊 ! 难 不 成 你 想 告 诉 显示 器 
HRERS! ”你 咋 不 上 天 呢 ? 

R, БАШ? 你 在 纸 上 怎 么 画 的 ? 我 就 是 找 
个 坐标 ， 画 个 点 ， 画 个 线 ， 画 个 方 框 ， 涂 上 颜色 什么 
的 。 一 样 ， 你 想 在 屏幕 的 哪个 像素 上 画 个 点 ， 就 计算 
出 该 点 或 者 该 区 域 〈 一 个 像素 太 小 ， 一 片 像素 组 成 一 
个 点 好 一 些 ) 的 屏幕 坐标 ， 映 射 成 显存 在 系统 中 被 映 
射 的 地 址 ， 然 后 直接 向 该 地 址 写 入 颜色 值 就 可 以 了 。 
比如 类 似 代码 Load_i 颜色 值 寄存 器 A，Stor 寄存 器 A 
地 址 1。 由 于 DAC 不 断 循 环 扫描 显存 取 数 据 ， 这 个 写 
入 操作 可 能 并 不 会 立即 就 被 显示 到 屏幕 上， 但 是 好 在 
我 们 每 秒 有 足够 的 刷新 率 ， 所 以 你 的 眼睛 会 表示 这 应 
足够 快 了 ， 只 有 拥有 超人 眼睛 的 发 烧 友 才 会 去 要 求 更 
高 的 刷新 率 。 当 然 ， 为 了 效率 考虑 ， 最 好 是 在 Host 端 
RAM 中 将 画 画 好 ， 然 后 用 memepy0 函 数 将 画 好 的 画 
批量 复制 到 显存 中 ， 这 样 效率 最 高 。 当 然 ， 这 样 也 会 
影响 画面 的 实时 性 。 实 际 上 ， 这 需要 综合 权衡 ， 不 过 
内 存 复制 的 速度 其 实 远 高 于 屏幕 刷新 速度 ， 所 以 一 般 
来 讲 不 用 担心 。 

然后 呢 ? 怎么 画 出 高 质量 的 画 来 ? 这 就 像 在 问 
“怎么 变 成 一 名 画家 ”一 样 。 从 头 自己 画 ， 自 己 琢 
磨 。 当 然 ， 有 个 比较 懒 的 办 法 ， 大 自然 是 最 好 的 画 
师 ， 直 接 拍 照 ， 用 感光 电路 (CMOS/CCD) 将 外 界 的 
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光源 翻译 成 红 绿 蓝 三 原色 模拟 信号 ， 然 后 经 过 ADC 转 
换 成 数字 量 之 后 的 格式 ， 这 就 是 位 图 (bitmap) 图 像 
文件 格式 ， 也 就 是 大 家 所 熟知 的 BMP 格式 的 文件 ， 其 
经 过 压缩 之 后 可 以 变 成 其 他 类 型 的 文件 ， 比 如 JPG 等 。 
直接 将 这 个 BMP 文件 复制 到 显存 。 员 ! 屏幕 上 就 会 出 现 
一 幅 棚 棚 如 生 的 画作 ! 这 是 当然 ， 将 大 自然 天 然 的 画 
作 加 工 处 理 ， 就 可 以 生成 后 期 可 以 利用 的 素材 了 。 

很 多 图 片 素材 ， 都 是 前 人 们 一 点 点 辛苦 制作 并 传 
播 出 去 ， 然 后 其 他 人 再 次 加 工 ， 再 次 传播 ， 逐 渐 积 少 
成 多 ， 于 是 有 了 今天 互联 网 上 唾 手 可 得 的 大 量 图 片 素 
材 。 比 如 某 个 画作 ， 你 说 其 作者 怎么 就 知道 某 个 地 方 
用 什么 配色 ， 某 个 地 方 用 什么 线条 ， 让 人 看 了 就 那么 
ATIRE? 这 些 都 要 一 点 点 地 调节 、 尝 试 、 思 考 。 或 者 
偷 个 懒 ， 拍 照 、 印 刷 。 这 就 是 为 什么 手工 画作 要 几 千 
块 ， 印 刷 品 才 几 十 块 。 

一 些 经 典 的 2D 游 戏 ， 比 如 《暗黑 破坏 神 I》， 那 
也 是 当年 冬瓜 哥 为 之 投入 了 大 量 时 间 的 游戏 。 为 何 ? 
就 是 因为 其 画面 、 特 效 让 人 叹为观止 。 里 面 的 图 片 素 
材 都 是 以 大 量 的 人 力 一 点 点 设计 、 制 作出 来 的 。 

自然 而 然 ， 有 人 就 在 想 ， 画 一 根 直 线 ， 需 要 计 
算出 这 根 直 线 跨 越 的 所 有 像素 点 的 坐标 ， 然 后 依次 填 
入 对 应 的 颜色 值 ， 这 个 过 程 是 不 是 太 麻烦 。 一 个 画作 
中 可 能 有 大 量 的 直线 ， 每 次 画 直 线 都 走 一 遍 这 个 过 
程 ， 这 没 必要 。 所 以 ， 干脆 封装 一 个 函数 出 来 吧 ， 比 
如 draw_line (起 始 屏幕 位 置 、 结 束 屏幕 位 置 、 画 笔 风 
格 、 粗 细 、 特 效 以 及 其 他 参数 ) ， 而 且 屏 幕 位 置 参数 
也 不 需要 是 存储 器 地 址 了 ， 给 出 相对 坐标 就 可 以 了 ， 
这 就 简单 多 了 。 可 以 封装 出 各 种 函数 。 比 如 ， 微 软 
开发 的 GDI 和 GDI+ 就 是 这 样 封装 出 来 的 2D 绘 图 函数 
库 ， 还 有 DirectDraw 和 Direct2D 以 及 其 他 一 些 第 三 方 
2D 绘 图 库 。 

此 时 你 真 的 可 以 实现 “ 帮 我 画 只 鸟 ” 了 一 一 直接 
开发 一 个 draw_bird0 函 数 就 行 了 。 这 并 不 是 笑话 ， 目 
前 有 一 些 商 用 的 素材 生成 工具 ， 比 如 著名 的 SpeedTree 
工具 ， 就 是 专门 用 来 生成 各 种 类 型 的 植物 的 ， 如 图 
8-68 所 示 。 只 要 点 几 下 鼠标 ， 调 一 些 个 性 化 参数 ， 就 
可 以 生成 对 应 的 模型 ， 只 不 过 其 生成 的 是 3D 模 型 。 我 
们 后 文中 再 介绍 3D 绘 图 原理 。 

这 就 是 现代 显示 器 的 成 像 基本 原理 。 然 后 呢 ? 别 
然后 了 ， 然 前 吧 。 上 面 只 是 做 了 个 开场 ， 开 场 不 算 火 
爆 。 上 述 这 些 看 似 顺理成章 的 显示 原理 ， 在 20 世 纪 中 
后 期 ， 其 实 还 没有 被 发 明 出 来 ， 那 时 候 ， 人 们 利用 一 
些 更 加 奇 范 、 原 始 的 方法 来 显示 图 像 。 现 在 ， 镜 头 一 


图 8-68 ”利用 SpeedTree 工 具 生成 的 植物 
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转 ， 冬 瓜 哥 还 是 先 带领 大 家 穿越 到 20 世 纪 ， 去 看 看 当 
时 人 们 是 怎么 用 计算 机 画图 的 。 


8.2.1 用 声音 来 画图 


示波器 ! 冬瓜 哥 当 年 如 果 知 道 示波器 还 可 以 像 
下 面 这 么 玩 ， 那 么 大 学 物理 实验 课 上 就 一 定 不 会 开 小 
差 了 。 示 波 器 是 什么 东西 ? 如 图 8-69 所 示 ， 示 波 器 本 
质 上 就 是 利用 电磁 场 力 ， 将 电子 流 以 任意 角度 方向 偏 
转 ， 喷 射 到 荧光 屏 上 形成 对 应 轨迹 的 亮 线 ， 来 显示 外 
界 信号 的 波形 。 嗯 ? 看 上 去 它 好 像 与 老 的 荧光 屏 电视 
并 没有 什么 区 别 。CRT 电 视 的 电子 流 是 在 电磁 场 驱动 
下 不 停 地 逐 行 〈 或 者 隔行 ) 扫描 的 ， 它 不 能 走 任意 路 
线 ， 它 永远 在 做 重复 的 往复 逐 行 扫描 运动 。 其 从 天 线 
或 者 有 线 电视 线 缆 上 接收 按照 对 应 速率 调制 的 红 绿 蓝 
三 原色 信息 ， 然 后 将 这 些 信息 翻译 成 驱动 电子 枪 中 三 
股 电子 流 强度 的 信号 ， 这 样 就 可 以 将 荧光 屏 上 的 光 点 
奈 击 出 对 应 的 颜色 。 只 要 信号 中 的 信息 流速 率 与 电子 
枪 移动 的 速率 匹配 起 来 ， 荧 光 屏 上 就 可 以 呈现 出 稳定 
的 图 像 。 具 体 的 原理 可 以 参考 第 5 章 中 的 内 容 。 

而 示波器 的 电场 力 是 万 向 的 ， 电 子 流 可 以 走 任意 
路 线 ， 其 由 X 轴 和 7 轴 两 个 磁场 来 驱动 ， 只 要 在 X 轴 和 
7 轴 磁 场 加 上 对 应 的 电场 力 ， 就 可 以 将 电子 流 定位 到 
整个 屏幕 视 场 二 维 坐 标 中 的 任意 位 置 。 这 就 像 做 抛物 
线 运动 的 物体 ， 如 果 没 有 重力 ， 它 会 一 直 走 3 轴 ， 正 
因为 有 了 重力 ， 它 一 边 走 3 轴 同 时 还 一 边沿 着 了 轴 向 
下 走 ， 所 以 其 路 径 形 成 了 抛物 线 。 假 设 轴 和 7 了 轴 上 
受到 的 力 的 大 小 和 方向 是 可 以 改变 的 ， 那 么 抛物 线 
就 可 以 变 成 任意 曲线 ， 比 如 一 个 圆圈 。 而 如 果 给 X 轴 
和 7Y 轴 上 施加 的 电场 力 的 大 小 是 按照 某 种 波形 来 变化 
的 ， 那 么 这 两 股 波形 又 加 之 后 ， 奇 妙 的 事情 将 会 发 
生 ， 电 子 流 此 时 分 明 就 是 一 支 优良 的 画笔 ! 画家 只 
要 给 其 Y 轴 和 7 轴 输 入 对 应 的 力量 ， 就 可 以 用 它 画 出 美 
妙 画 作 了 。 

先 用 它 画 个 正弦 波 。 把 一 个 正弦 波源 接 到 其 7 轴 
上 ， 那 么 Z 轴 上 的 电压 将 按照 正弦 波 而 周期 变化 ， 其 


将 会 驱动 着 对 电场 力也 按照 正弦 方式 变化 ， 屏 幕 上 
将 会 出 现 一 条 竖 线 ， 这 是 光 点 在 竖 直 方向 上 做 往复 运 
动 而 生成 的 。 如 果 正 弦 波 频率 足够 低 ， 你 会 看 到 一 个 
往复 运动 的 光 点 ， 光 点 没有 拖 尾 ， 因 为 光 点 移动 得 很 
慢 ， 之 前 的 屏幕 荧光 位 置 会 迅速 熄灭 ， 从 而 无 法 形成 
视觉 暂 留 效应 ， 如 果 正 弦 波 频率 过 高 ， 由 于 光 点 的 余 
辉 效应 产生 视觉 暂 留 ， 曲 线 就 会 变 成 一 条 直线 。 

那么 ， 如 何 将 这 个 正弦 波形 随 着 时 间 的 变化 展示 
出 来 〈 也 就 是 在 Y 轴 上 将 其 拉 开 ) 呢 ? 那 就 得 利用 抛 
物 线 的 原理 ， 在 X 轴 上 产生 一 个 力 ， 让 光 点 在 X 轴 上 义 
速 运动 就 可 以 了 。 这 个 过 程 你 甚至 可 以 自己 用 一 支 笔 
和 一 张 纸 模拟 出 来 : 用 笔 上 下 往复 画 线 ， 纸 不 动 ， 会 
得 到 一 根 竖 线 ;如 果 用 另 一 只 手 匀 速 将 纸 拉 向 一 方 ， 
就 会 得 到 三 角 波 ; 如 果 竖 直方 向 的 往复 运动 忽 快 忽 
慢 ， 按 照 正弦 方式 ， 就 会 得 到 正弦 波 了 ， 当 然 由 于 技 
巧 的 限制 ， 很 难得 到 标准 正弦 波 。 

由 于 屏幕 在 X 轴 上 的 长 度 是 有 限 的 ， 所 以 X 轴 的 电 
场 力 将 电子 流 移动 到 屏幕 尽头 之 后 需要 归 零 ， 然 后 再 
次 升 高 ， 本 质 上 ，X 轴 上 加 的 是 一 个 锯齿 波 。 这 样 就 
不 断 地 让 电子 流 在 X 轴 方向 持续 运动 ， 从 而 在 时 间 上 
将 7 轴 的 波形 拉 开 ， 让 人 们 容易 分 辨 ,这 个 过 程 也 是 
一 种 扫描 过 程 。 如 果 在 7 轴 上 加 上 任意 波形 ， 比 如 声 
波 ， 那 就 是 如 图 8-70 中 间 的 仪器 所 示 的 波形 了 。 如 何 
将 声波 加 到 7 轴 上 ? 把 一 副 旧 耳机 拆 掉 ， 露 出 音频 里 
的 导线 ， 将 其 接 到 示波器 7 轴 触 点 上 ， 然 后 用 你 的 音 
乐 播放 器 播放 任意 音乐 ， 就 可 以 了 。 

现在 我 们 把 玩 一 下 ， 让 X 轴 上 不 再 安安 分 分 地 加 
锅 具 波 ， 而 是 加 上 正弦 波 或 者 方 波 等 ， 让 屏幕 内 的 这 
个 波形 世界 的 时 间 不 再 匀速 流逝 ， 而 是 扭曲 着 流逝 ， 
甚至 可 以 回 退 ! 看 看 会 发 生 什 么 ? 你 可 以 先 冥想 一 
下 。 如 图 8-70 右 侧 的 仪器 所 示 的 波形 ， 咽 ?这 镜头 好 
像 也 不 算 火爆 啊 ， 冬 瓜 哥 这 个 导演 一 般 啊 ! 

但 是 下 面 的 剧情 不 会 让 你 失望 。 图 8-71 所 示 为 一 
名 高 手打 算 用 示波器 + 声波 信号 画 出 蘑菇 的 图 案 。 建 
议 先 不 要 扫 码 观看 视频 ， 先 看 完 文字 。 

如 图 8-70 所 示 ， 将 双 声 道 立体 声 的 人 语 声 模 拟 信 


图 8-69 示波器 显示 屏 作用 原理 


号 加 到 示波器 的 7 轴 和 X 轴 输入 信号 上 。 如 果 只 加 左 声 
道 到 X 轴 ， 由 于 Z 轴 没有 电场 力 ， 所 以 电子 流 只 在 横向 
上 根据 声音 振幅 左右 往复 运动 。 同 理 ， 如 果 只 把 右 声 
道 加 到 了 Y 轴 ， 那 么 电子 流 就 只 在 竖 直 往复 运动 。 信 和 号 
拖 尾 余辉 会 根据 声音 的 频率 和 振幅 ， 显 示 出 不 同 的 拖 
尾 长 度 。 当 把 左右 声 道 都 连接 上 去 之 后 ， 便 形成 了 图 
中 这 些 奇 妙 的 图 案 ， 其 实 这 都 是 两 个 波形 从 加 之 后 的 
结果 ， 只 不 过 是 呈 90 度 垂直 县 加 ， 而 不 是 平行 琶 加 。 
眼熟 么 ? 一 些 播放 器 软件 中 的 视觉 特效 ， 就 是 这 样 做 
出 来 的 ， 如 图 8-72 所 示 。 


& 


那么 ， 如 果 在 X 轴 上 加 一 个 正弦 波 ，7 轴 上 加 一 
个 余弦 波 ， 两 者 频率 相等 、 振 幅 相 等 ， 会 用 加 出 什么 
ЈАК? 是 个 圆 。 如 图 8-73 所 示 ， 如 果 引 入 一 些 杂 波 ， 
或 者 改变 左右 声 道 的 音量 ， 就 会 在 这 个 圆 之 上 调制 入 
其 他 形状 成 分 ， 从 而 生成 各 种 图 案 。 在 这 个 圆 的 基础 
上 ， 再 在 7 轴 上 和 额外 又 加 一 个 锯齿 波 ， 会 怎样 ? 毫 无 
疑问 ， 这 个 圆 会 在 7 轴 上 被 “ 拉 开 ”， 最 终 形成 一 个 
弹簧 ， 如 图 8-74 最 左 图 所 示 。 

在 这 个 弹簧 的 基础 上 ， 将 3 轴 的 信号 乘 以 一 个 低 
频 正弦 波 ， 则 得 到 了 图 8-74 左 侧 第 二 个 图 案 。 提 升 这 


个 正弦 波 的 频率 与 7 轴 刚 才 用 加 上 的 锯齿 波 相同 会 得 
到 左 三 的 图 案 。 如 果 将 该 正弦 波 前 四 分 之 三 的 周期 的 
振幅 变 为 0， 只 保留 最 后 四 分 之 一 周期 的 振幅 ， 则 产 
生 左 四 的 蘑菇 图 形 。 再 在 X 轴 上 肥 加 上 一 个 低频 正弦 
波 ， 则 整个 波形 会 按照 该 波 的 频率 扭 动 起 来 ， 如 图 
8-74 右 三 所 示 。 如 果 在 7 轴 上 加 入 方 波 ， 则 可 以 将 X 轴 
上 的 图 案 整体 位 置 进 行 对 应 的 搬移 ， 只 要 方 波 频率 足 
够 高 ， 那 么 形成 的 视觉 暂 留 效果 ， 就 可 以 让 大 脑 误 认 
为 同时 存在 多 份 不 同 的 图 案 。 其 实 ， 屏 幕 上 的 光 点 只 
有 一 个 ， 其 他 地 方 都 是 屏幕 余辉 ， 这 相当 于 用 往复 运 
动 的 波形 来 实现 屏幕 的 刷新 。 

现在 大 家 可 以 扫 图 8-71 中 的 码 观赏 一 下 该 视频 。 


大 话 计 算 机 一 一 计算 机 系统 


一 定 要 记得 戴 上 耳机 ， 因 为 耳机 中 的 左右 声 道 声音 就 
是 输入 到 示波器 中 X 轴 和 了 7 轴 的 信号 ， 可 以 感知 到 声 
波 是 怎么 合 加 到 一 起 形成 图 形 的 。 另 外 也 可 以 扫 码 下 
载 对 应 的 声音 文件 ， 只 要 将 这 个 文件 播放 出 来 ， 将 音 
tl ea 即 可 得 到 对 应 波 

。 手 头 有 示波器 的 还 不 赶紧 试 试 ! 

- 些 简单 的 图 形 图 案 ， 可 以 直接 用 周期 性 波 直 
接受 加 来 合成 ， 比 如 正弦 波 、 余 弦 波 、 饮 齿 波 、 方 波 
等 。 甚 至 一 些 看 上 去 不 可 思议 的 图 形 ， 比 如 图 8-75 中 
的 蝴蝶 ， 其 实 也 可 以 通过 调节 这 些 波 形 的 又 加 来 生 
成 ， 图 中 下 方 的 波形 公式 就 可 以 生成 这 只 蝴蝶 。 但 是 
如 果 想 画 出 一 些 更 不 规则 的 形状 ， 比 如 图 8-75 所 示 的 
文字 ， 那 就 真 不 是 通过 简单 县 加 现成 的 周期 性 波形 来 
形成 的 了 ， 而 是 要 直接 驱动 光 点 沿 着 字形 的 边沿 走 。 
所 以 需要 计算 一 下 这 些 字形 的 屏幕 坐标 ， 然 后 将 坐标 
翻译 成 对 应 的 X 轴 和 7Y 轴 电 平 值 量化 样 点 ， 还 需要 算出 
在 声音 波形 文件 中 哪个 位 置 插入 这 些 
， 这 些 图 形 都 是 利用 余辉 那么 就 
需要 在 声音 文件 中 持续 重复 播放 相同 前 实现 一 
的 刷新 率 。 可 以 注意 到 图 8-75 中 英文 字母 之 间 其 实 是 
ОН НОВ аш дев 
азия 


接 处 ， 人 人 人间 
复 描绘 该 字母 ， 形 成 较 亮 芯 

一 个 字母 ， с прека 5 
次 ， 而 字母 本 体 余辉 较 亮 ， 衔 接 处 也 就 无 法 引 人 注 目 


-2cos(4t)-sin5(t/12)) 
s(t)-2cos(4t)-sin5(t/12)) 


x=sin(t)(e%° 
y=cos(t)(e' 


了 。 如 果 让 闪电 侠 在 屏幕 上 用 手 作 画 ， 也 可 以 达到 一 
样 的 效果 。 

这 整个 过 程 ， 相 当 于 把 一 幅 用 连续 的 一 根 线条 勾 
勒 出 的 图 案 (有些 地 方 重复 描绘 多 次 ) ， 在 时 间 上 重 
复 多 次 重新 勾勒 ， 从 而 高 速 刷新 整个 屏幕 形成 视觉 暂 


留 ， 这 相当 于 放 了 快 镜头 。 图 8-75 是 另外 一 个 样 例 ， 
大 家 可 以 扫 码 观看 。 
> 
看 了 这 两 个 视频 之 后 ， 你 是 不 是 感觉 我 们 这 个 


ратна ТАННЯ 
的 “物质 ”， 还 有 所 谓 的 “微观 粒子 ”， 可 能 其 本 
质 上 都 是 某 种 波形 以 及 波形 的 登 加 。 到 了 世界 最 底 
层 ， 很 有 可 能 是 某 种 波形 生成 器 ( 比如 排 布 在 空 
间 中 的 某 种 场 ) 在 生成 原始 波形 ， 这 些 波形 经 过 各 
种 变频 处 理 ， 然 后 登 加 ， 最 后 生成 各 种 上 层 “ 物 
质 ”， 并 相互 在 高 维度 上 作用 。 当 然 ， 这 只 是 一 种 
想象 ， 至 于 真实 情况 还 需要 人 们 继续 探索 。 但 是 冬 
ыык дин 由 图 8-75 中 的 视频 ， 甚 至 可 
宇宙 的 演化 过 程 ， 从 一 开始 屏幕 中 央 的 亮 
点 ， 逐 渐 形 成 丰富 А ， 最 后 又 回 到 了 亮 
点 。 对 于 图 中 的 这 只 它 自身 是 否 知道 ， 它 所 
人 4 手绘 制 出 
来 的 呢 ? 蝴蝶 脑 部 的 波形 不 断 登 加 演化 ， 进 化 出 高 
级 智慧 ， 竟 然 发 现 了 其 生活 在 的 这 个 屏幕 底层 有 某 
种 成 分 的 锯齿 波 ， 其 给 它 起 名 为 “质子 ”。 然 后 又 
发 现 ， 还 有 更 加 底层 的 波形 一 一 正弦 波 ， 这 个 波形 


似乎 是 最 原始 的 ， 一 切 波形 都 是 由 它 登 加 出 来 的 ， 
于 是 给 它 起 名 “ 玻 色 子 ”。 蝴 蝶 可 能 已 经 在 买 买 中 
感受 到 ， 底 层 存在 更 加 原始 的 东西 在 驱动 着 它 的 世 
界 的 运行 。 当 然 ， 这 只 是 冬瓜 哥 的 异想天开 。 别 当 
真 ， 当 真 的 话 你 下 半 章 子 的 奋斗 目标 就 找 不 到 了 。 
比如 ， 冬 瓜 哥 如 果 下 半 华 子 致力 成 为 一 名 民 科 ， 
那么 冬瓜 哥 会 思考 和 研究 ， 到 底 什 么 样 的 两 个 波 
或 者 波 的 登 加 体 怎么 也 县 加 不 到 一 起 去 ( 斥 力 现 
象 ) 等 。 


20 世 纪 早 期 的 显示 器 ， 就 是 像 示 波 器 一 样 可 以 任 
意 画 线 的 显示 器 ， 直 到 后 来 才 出 现 按照 一 定 速度 逐 行 
扫描 生成 整个 屏幕 上 的 所 有 像素 点 的 显示 器 。 前 者 这 
种 可 以 任意 画 线 的 显示 器 被 称 为 向 量 显示 器 (Vector 
Displayer) 或 者 Stroke Graphic Displayer〈 笔 画 显示 
器 ) 。 后 者 则 被 称 为 All Point Addressable САРА) 
显示 器 ， 或 者 Pixel Displayer (像素 显示 器 ) ， 还 有 
人 称 之 为 Raster Scanning Displayer (光栅 格 扫描 显示 
Ж) 。CRT 既 可 以 做 成 向 量 显示 方式 ， 又 可 以 做 成 像 
素 / 栅 格 扫描 模式 ， 这 完全 取决 于 电子 流 如 何在 磁场 中 
被 偏转 。 

有 些 向 量 显示 器 的 余辉 效应 持久 ， 可 以 持续 长 达 
数 分 钟 。 这 相当 于 在 一 块 黑板 上 用 水 作画 的 画家 ， 其 
画 完 一 次 ， 可 以 欣赏 好 几 分 钟 ， 当 余辉 灭 了 〈 水 分 蒸 
发 ) 以 后 ， 再 重 画 一 遍 。 这 类 显示 器 无 法 实现 快速 动 
画 ， 所 以 应 用 场景 很 窄 ， 只 适用 于 图 像 隔 很 长 时 间 才 
变化 一 次 的 场景 。 

APA 类 型 的 显示 器 可 以 显示 更 加 丰富 的 图 案 ， 操 
作 起 来 也 更 加 简单 ， 直 接 向 对 应 像素 存储 器 写 入 对 应 
值 即 可 。 其 麻烦 之 处 在 于 如 何 将 图 片 映 射 成 一 个 个 不 
同 颜色 的 像素 ， 也 就 是 图 形 设计 阶段 比较 复杂 。 而 向 
量 显 示 器 则 在 图 形 绘 制 阶段 比较 复杂 ， 因 为 需要 根 
据 要 显示 的 内 容 ， 动 态 地 将 信号 翻译 成 X 轴 和 Y 轴 的 


5678 


0123 4 


012345678 
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输入 值 ， 而 且 需 要 将 要 显示 的 内 容 本 体重 复 描绘 多 遍 
以 加 强 余辉 ， 这 些 都 需要 一 定 的 计算 量 。 同 时 向 量 显 
示 器 能 够 方便 实现 简单 线条 堆砌 的 图 案 ， 而 无 法 生成 
丰盈 的 、 连 续 过 渡 的 图 形 。 理 论 上 ， 只 要 刷新 率 足 够 
高 ， 就 可 以 让 光 点 在 一 个 范围 内 重复 涂抹 ， 但 是 这 样 
对 应 的 输入 信号 数据 量 就 太 大 了 。 向 量 作 图 完全 是 顺 
序 地 勾勒 出 一 帧 ， 而 不 是 用 像素 堆砌 出 一 帧 ， 图 案 越 
复杂 ， 这 一 帧 中 光 点 需要 走 过 的 路 径 就 越 长 ， 其 刷新 
率 / 帧 率 就 要 降低 ， 从 而 也 就 失去 了 动画 的 连贯 性 。 但 
是 向 量 显示 方式 在 图 形 设计 阶段 则 比较 简单 ， 因 为 只 
需要 记录 光 点 走 过 的 位 置 坐标 即 可 。 甚 至 可 以 发 明 一 
种 人 机 交互 设备 ， 能 够 根据 鼠标 或 者 电子 画笔 在 画板 
上 的 移动 轨迹 ， 直 接生 成 对 应 的 坐标 ， 勾 勒 出 对 应 的 
图 案 。 然 后 将 这 些 坐 标 分 解 成 X 轴 和 Y 轴 方向 的 电 平 
值 样 点 ， 复 制 整个 帧 为 多 份 ， 持 续 输送 到 示波器 ， 就 
可 以 显示 出 该 图 。 

向 量 显示 器 最 终 被 像素 显示 器 取代 ， 这 也 是 必然 
的 。 不 过 ， 一 些 特种 行业 ， 依 然 使 用 向 量 显示 器 ， 比 
如 航空 仪表 ， 其 要 求 非常 清晰 明亮 地 显示 一 些 比较 简 
单 的 字符 、 线 框 等 。 而 向 量 显示 器 的 线条 是 直接 画 出 
来 的 ， 不 会 产生 像素 显示 器 在 显示 和 斜 线 时 由 多 个 方块 
拼接 产生 的 边缘 锯齿， 效果 会 更 好 。 


8.2.2 文字 模式 


在 计算 机 显示 器 刚 出 现时 ， 人 们 根本 不 敢 奢 望 其 
还 能 显示 图 形 ， 能 显示 文字 就 不 错 了 。 那 么 ， 如 何 用 
向 量 显示 器 显示 文字 ? 


8.2.2.1 向 量 文本 模式 显示 


人 们 是 这 样 做 的 ， 如 图 8-76 所 示 。 比 如 对 于 字符 
“A”， 人 们 先 将 其 抽象 地 放 入 一 个 栅 格 中 ， 然 后 将 
该 字形 跨越 的 棚 格 节点 的 坐标 位 置 记录 下 来 ， 取 其 中 


AAA 


字符 “A” 的 绘制 坐标 及 顺序 : 


> 
(1,0); (2,3); (3,6); (4,8); (5,6); (6,3); (4,3); (2,3); (4,3); (6,3); (7,0); (6,3); (5,6); (4,8); (3,6); (2,3); (1,0); 


向 量 显示 器 X 轴 的 信号 顺序 : 1,2,3,4,5,6,4,2,4,6,7,6,5,4,3,2,1 A 
向 量 显示 器 Y 轴 的 信号 顺序 : 0,3,6,8,6,3,3,3,3,3,0,3,6,8,6,3.0 a Y 


8-76 ”向 量 模式 的 字符 “A” 所 需要 保存 的 字形 信息 


有 SS 可 大 话 计算 机 一 一 计算 机 系统 底层 架构 原理 极限 剖析 


可 以 组 成 直线 或 者 近似 直线 的 若干 个 点 ， 将 这 些 点 在 
栅 格 中 的 相对 坐标 值 记录 下 来 ， 并 保存 到 某 个 地 方 ， 
比如 某 个 文件 中 。 所 有 可 能 的 、 常 用 的 字符 ， 都 这 样 
处 理 一 番 ， 最 后 形成 的 所 有 字符 的 形状 样 点 坐标 值 所 
保存 到 的 文件 ， 被 称 为 字库 ， 或 者 字符 集 。 字 库 / 字 符 
集 可 以 有 不 同 的 设计 风格 ， 就 像 每 个 人 写 出 来 的 字体 
都 不 一 样 ， 有 些 人 写 的 看 上 去 就 那么 的 端庄 ， 而 冬瓜 
哥 写 出 来 就 无 法 让 人 直 视 。 用 户 可 以 替换 字库 文件 以 
实现 装载 不 同 风格 字体 的 字库 。 字 形 库 ， 就 犹如 声音 
波 表 一 样 ， 它 们 俩 的 本 质 目的 是 相同 的 。 图 8-76 所 示 
为 需要 为 向 量 显示 器 保存 的 字形 库 中 的 A 字符 的 字形 
信息 。 

让 向 量 显示 器 绘制 该 字形 时 ， 比 如 printftO 函 数 需 
要 显示 出 A 这 个 字符 ， 那 么 该 函数 需要 从 字库 文件 中 
读 出 A 对 应 的 形状 样 点 值 ， 并 按照 顺序 将 其 X 轴 的 从 
标 值 和 Y 轴 的 坐标 值 ， 分 别 写 入 显卡 的 显存 ， 后 者 将 
对 应 的 值 转换 为 电 平 值 信号 ， 然 后 按照 顺序 输送 到 
显示 器 X 轴 和 Y 轴 ， 这 样 便 在 屏幕 上 绘制 出 字符 A 来 
了 。 问 题 是 ， 图 中 所 示 的 序列 只 是 将 字符 A 来 回 描绘 
了 两 次 ， 这 么 短 的 时 间 内 ， 人 有 眼 无 法 形成 视觉 暂 留 。 
所 以 ， 为 了 产生 余辉 的 视觉 暂 留 ， 每 个 字形 需要 反复 
描绘 ， 这 就 像 在 纸 上 画 画 一 样 ， 字 符 主体 总 要 多 画 几 
E. 那么 反复 多 少 次 呢 ?” 这 个 需要 根据 当时 的 显示 器 
的 具体 规格 来 确定 ， 可 以 让 显卡 暴露 一 些 配置 寄存 
器 ， 从 而 可 以 让 程序 将 需要 反复 的 次 数 写 入 寄存 器 ， 
显卡 则 根据 该 寄存 器 的 值 反 复 描绘 每 个 字形 一 定 的 次 
数 ， 然 后 再 描绘 下 一 个 字符 。 

既然 交 给 显卡 自己 来 反复 描绘 字形 ， 那 么 图 8-76 
中 所 示 的 一 去 一 回 的 两 次 描绘 路 径 还 有 必要 吗 ? 是 否 
只 需要 记录 描绘 一 次 所 需 走 过 的 坐标 点 就 可 以 呢 ? 这 
样 还 可 以 节省 显存 容量 。 如 图 8-77 所 示 ， 我 们 只 记录 
去 程 经 过 坐标 点 ， 然 后 让 显卡 自动 触发 描绘 多 次 。 结 
果 发 现 ， 光 点 描绘 到 字形 右 下 角 的 时 候 ， 由 于 显卡 需 
要 触发 反复 描绘 ， 会 让 光 点 走 到 字形 左下 角 重 复 描 
绘 ， 要 知道 ， 光 点 是 不 会 灭 的 ， 它 走 到 左下 角 也 会 产 
生 轨 迹 ， 这 样 ， 最 后 描绘 出 来 的 字形 底部 会 产生 一 条 
亮 线 ， 导 致 描绘 错误 。 所以， 每 个 字形 都 必须 有 去 程 


和 回程 ， 回 到 原始 坐标 点 才 可 以 。 


有 些 示 波 器 有 Z 轴 输入 ， 其 作用 是 增辉 ， 也 就 
是 光 点 的 亮度 会 随 着 Z 轴 上 的 电压 变化 而 变化 ， 这 
就 会 让 作 图 更 加 方便 ， 可 以 在 光 点 滑 过 两 个 图 形 
之 间 时 ， 将 Z 轴 电压 降低 ， 而 让 光 点 涂抹 图 形 本 体 
时 ， 给 Z 轴 加 一 个 稍 高 的 电压 让 光 点 更 亮 一 些 ， 
这 样 就 可 以 将 一 些 之 前 不 得 已 的 过 渡 线 消 掉 ( 消 
隐 ) ， 使 画面 更 干净 。 此 时 图 8-77 所 示 的 方法 就 变 
得 可 以 实现 ， 在 光 点 回程 时 利用 Z 轴 信和 号 消 隐 ， 最 
底下 的 横 线 就 看 不 出 来 了 。 但 是 此 时 需要 一 个 三 通 
道 波形 发 生 器 ， 这 样 很 不 方便 。 


仔细 思考 上 述 过 程 ， 朴 忽 了 一 个 地 方 。 字 符 A 到 
底 被 显示 在 屏幕 的 哪个 地 方 ? 上 文中 直接 把 A 形状 中 
样 点 的 相对 坐标 发 送 给 显卡 ， 这 是 不 对 的 ， 应 该 发 送 
的 是 屏幕 绝对 坐标 。 实 际 上 ， 早 期 计算 机 显示 屏 上 总 
会 有 个 光标 在 闪 动 ， 这 意味 着 下 一 个 输出 的 字符 就 会 
被 显示 在 这 个 位 置 。 当 然 ， 光 标的 闪烁 ， 也 是 由 程序 
来 驱动 显示 器 完成 的 。 底 层 程 序 必须 记录 当前 屏幕 的 
光标 的 绝对 坐标 ， 当 上 层 程序 需要 在 当前 位 置 显 示 A 
时 ， 程 序 从 字库 中 读 出 A 的 字形 相对 坐标 ， 只 要 与 光 
标的 绝对 坐标 做 一 个 相 加 操作 ， 就 可 得 出 A 即将 被 显 
示 的 绝对 坐标 了 。 显 示 出 A 之 后 ， 负 责 显示 的 程序 还 
需要 将 光标 的 位 置 向 后 移动 一 个 字符 的 间距 ， 等 待 下 
一 次 的 字符 显示 。 

并 且 ， 所 有 之 前 输入 到 屏幕 上 的 字符 ， 必 须 留 
在 屏幕 上 ， 这 符合 日 常 使 用 习惯 ， 除 非 用 户 要 求 清 

。 所 以 ， 曾 经 写 入 到 显存 中 的 字符 坐标 ， 显 卡 都 
要 将 它们 依次 追加 保存 到 显存 中 ， 并 且 自 动 按照 对 
应 的 刷新 率 重 复 不 停 地 重新 绘制 显存 中 所 有 的 字符 
到 屏幕 上 。 当 用 户 按 下 回 车 键 将 屏幕 上 的 字符 整体 
向 上 挪动 了 一 行 ， 或 者 某 程序 需要 实现 这 种 屏幕 整 
体 滚动 效果 时 ， 程 序 需要 重新 计算 显存 中 所 有 字符 
的 新 坐标 值 ， 并 将 新 坐标 值 传送 给 显卡 ， 显 卡 用 新 
坐标 值 绘制 字符 。 这 个 过 程 运算 量 相对 较 大 ， 相 当 
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Таоа) ве GEN 56: (63 изу 23: 6630 о о 0); (2,3); (3,6); (4,8); (5,6); (6,3); (4,3); (2,3); (4,3); (6,3); (7,0); 
8-77 ”如 果 只 记录 去 程 坐标 点 则 会 产生 描绘 错误 


于 每 个 字符 的 每 个 坐标 都 要 加 上 或 者 减 去 某 个 固定 
值 ， 不 过 ， 由 于 每 个 字形 只 有 少数 的 样 点 ， 屏 幕 上 
的 字符 数量 整体 也 不 算 多 。 比 如 一 个 能 够 显示 80 
列 、25 行 ， 共 80X25=2000 个 字符 的 显示 器 ， 其 上 每 
个 字符 假设 有 20 个 样 点 ， 该 场景 也 不 过 需要 区 区 4 万 
次 加 /减法 运算 ， 这 对 于 一 般 的 CPU 毫 不 费力 ， 所 以 
屏幕 滚动 时 几乎 可 以 保持 流畅 。 

要 显示 的 字符 坐标 可 以 在 显存 中 顺序 存放 ， 不 管 
这 个 字符 将 要 被 显示 在 屏幕 的 哪个 位 置 上 ， 这 样 光 点 
画 完 一 个 字符 会 接着 画 它 相 邻 的 那个 字符 。 比 如 字符 
A 被 显示 在 屏幕 左上 角 ， 而 B 被 显示 在 右 下 角 ，A 和 B 
之 间 没 有 其 他 字符 ， 那 么 此 时 A 和 B 的 坐标 值 也 需要 
在 显存 中 连续 相 邻 存放 ， 显 示 完 A 之 后 ， 光 点 会 跨越 
比较 大 的 轨迹 从 A 字符 直线 跨越 到 字符 B， 屏 幕 上 会 
显示 出 一 道 连接 着 A 和 B 的 轨迹 ， 但 是 由 于 比较 暗 ， 
速度 也 比较 快 ， 所 以 该 轨迹 不 易 分 辨 。 那 些 屏幕 上 不 
显示 字符 的 空 区域 对 应 的 显存 中 不 存放 任何 信息 ， 
Host 可 以 在 显存 中 所 有 字符 结尾 加 上 一 个 结束 符 ， 从 
而 告诉 显卡 的 扫描 电路 模块 扫描 到 这 里 就 结束 返回 开 
头 继续 扫描 。 这 样 设计 的 话 ， 如 果 要 显示 的 字符 很 
少 ， 那 么 显示 器 的 帧 频 / 场 频 会 非常 高 ， 图 像 更 加 稳 
定 不 闪烁 ， 而 如 果 要 显示 的 字符 占 满 了 显存 ， 满 屏 都 
是 字符 的 话 ， 那 么 绘制 完 一 屏幕 耗费 的 时 间 就 增加 
了 ， 场 频 自然 降低 ， 人 眼 会 感受 到 闪烁 。 如 果 要 避免 
这 种 不 均衡 ， 就 需要 恒定 点 频 、 行 频 、 场 频 。 可 以 将 
要 显示 的 字符 按照 在 屏幕 上 的 位 置 放置 到 对 应 的 显存 
地 址 ， 屏 幕 空白 处 对 应 的 显存 地 址 上 则 放置 对 应 数量 
的 上 一 个 字符 结尾 处 的 坐标 值 ， 也 就 是 让 光 点 原 地 不 
动 ， 等 待 对 应 的 周期 数 之 后 ， 电 路 扫描 到 显存 的 有 效 
字符 处 ， 读 出 了 对 应 的 新 坐标 值 ， 于 是 光 点 再 跳 过 去 
继续 描绘 。 

每 个 字形 的 复杂 度 不 同 ， 绘 制 时 也 有 快 有 慢 ， 
怎么 解决 ? 如 图 8-78 所 示 。 一 样 ， 也 需要 让 光 点 原 
地 等 待 对 应 的 时 间 。 比 如 W 这 个 字形 需要 4 个 笔画 ， 
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而 I 只 需要 一 笔 ， 为 了 保证 描绘 时 间 相同 ， 此 时 可 将 
I 字形 的 仅 需 的 两 个 描绘 样 点 复制 多 份 存 放 ， 这 样 
保持 每 个 字形 所 需 的 样 点 数量 相同 ， 便 于 存储 和 管 
理 。 但 是 这 种 做 法 会 导致 光 点 等 待 的 地 方形 成 较 高 
的 视觉 残留 ， 影 响 字体 美观 程度 。 另 一 种 做 法 是 让 
笔画 少 的 字形 反复 描绘 多 次 ， 但 是 一 样 会 导致 该 字 
形 的 浓度 高 于 复杂 字形 ， 整 个 屏幕 的 美观 度 也 会 下 
降 。 看 来 ， 要 想 美观 ， 必 须 采 用 带 有 Z 轴 的 示波器 
了 ， 在 光 点 等 待 时 或 者 额外 重复 描绘 时 ， 同 时 让 光 
点 的 辉 度 减弱 ， 以 削弱 由 此 带 来 的 到 加 效应 。 现 实 
中 的 向 量 显示 器 一 般 不 做 这 些 优化 ， 显 示 的 内 容 越 
复杂 ， 刷 新 率 也 就 越 低 。 

如 果 要 插入 一 个 字符 ， 那 么 它 后 续 的 字符 就 必须 
跟着 向 后 移动 一 个 字符 的 距离 。 此 时 Host 端 的 程序 必 
须 重新 把 受到 影响 的 字符 向 后 挪动 ， 也 就 是 把 最 后 一 
个 字符 的 坐标 值 从 显存 中 读 出 来 ， 然 后 写 入 该 字符 原 
来 所 在 位 置 的 下 一 个 显存 位 置 ， 读 出 倒数 第 二 个 字符 
坐标 ， 再 将 它 写 入 倒数 第 一 个 字符 之 前 所 在 的 显存 位 
置 ， 以 此 类 推 。 此 时 也 需要 较 大 的 运算 量 。 

我 们 再 来 看 看 向 量 显示 器 需要 多 少 显存 。 假 设 
还 是 上 面 这 个 2000 个 字符 容量 的 屏幕 ， 假 设 每 个 字符 
需要 记录 20 个 样 点 〈 包 括 绘制 路 径 的 去 程 和 返程 ) ， 
共 4 万 个 样 点 ， 每 个 样 点 的 X/Y 坐 标量 化 值 为 3 位 整数 
位 ， 共 6 位 ， 那 么 总 共 需 要 29KB 的 显存 ， 这 个 数值 够 
低 了 吧 ? 非 也 。 在 当时 ， 电 脑 主 机 上 也 不 过 才 4KB 主 
存 ， 即 便 这 样 ， 一 台电 脑 竟 然 能 卖 到 数 千 美 金 。 还 
想 用 29KB 做 显存 ? 这 放 在 当时 是 很 夸张 的 ， 不 敢 想 
象 。 你 可 知道 ， 兆 这 个 字 ， 也 就 是 一 百 万 ， 对 于 20 世 
纪 的 人 来 讲 ， 可 真 的 是 一 百 万 ! 那 时 候 ，1KB 已 经 是 
奢侈 ， 存 储 器 都 是 按照 字 节 粒度 来 省 吃 俭 用 的 ， 以 至 
于 有 了 比尔 盖 茨 当年 的 “640KB 内 存 对 于 用 户 而 言 远 
远 够 用 了 ”的 言论 。 为 此 ， 人 们 想 了 另 一 种 办 法 来 存 
储 这 些 字形 的 坐标 样 点 。 
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图 8-78 让 笔画 少 的 字形 描绘 时 光 点 原 地 等 待 对 应 的 时 间 


SS 到 大 话 计算 机 一 一 计算 机 系统 底层 架构 原理 极限 剖析 


提示 > 

多 数 现实 中 的 向 量 显示 器 接收 的 除了 坐标 值 之 
外 ， 还 需要 告诉 它 对 应 的 指令 操作 码 ， 比 如 “ 移 
动 ”“ 画 点 ”“ 画 线 ”“ 画 字符 ”等 命令 ， 在 结束 
一 帧 的 绘制 之 后 ， 程 序 利用 跳 转 指令 告诉 显示 器 重 
新 从 头 开始 继续 绘制 ， 从 而 实现 一 定 Hz 的 刷新 率 。 
这 意味 着 ， 这 种 显示 器 内 部 需要 有 对 应 的 指令 译 码 
器 ， 或 者 说 微型 CPU 来 做 这 个 工作 。Host 端 将 这 些 
命令 连同 坐标 信息 一 起 放置 到 显存 ， 然 后 由 显示 器 
内 部 的 CPU 来 负责 解析 指令 和 控制 CRT 来 绘图 。 


8.2.2.2 用 ROM 存 放 字形 库 


在 当时 ，RAM 是 非常 昂贵 的 ， 但 是 另 一 种 存储 
器 却 相 对 廉价 得 多 ， 那 就 是 ROM。ROM 存 储 器 的 
原理 我 们 在 第 1 章 中 就 为 大 家 介绍 过 ， 其 不 允许 写 
入 ， 只 读 ， 但 是 读 取 速度 却 可 以 做 到 与 SRAM 相 同 的 
级 别 。 
提示 > 

请 不 要 拿 PROM、EEPROM 等 可 擦 写 ROM 与 
RAM 或 者 SRAM 比 性 能 。 可 擦 写 ROM 由 于 使 用 了 
特殊 的 可 充 放 电 晶体 管 来 搭建 ， 所 以 其 读 取 、 写 入 
速度 都 比较 慢 。 只 不 过 ， 现 代 计算 机 中 的 ROM 普 遍 
使 用 可 擦 写 ROM， 因 为 其 允许 修改 ,更 加 方便 ， 
所 以 “ROM 读 写 很 慢 ” 的 印象 就 被 造成 了 。 早 期 
的 时 候 ， 人 们 普遍 使 用 纯 Crossbar 搭 建 的 不 可 擦 写 
ROM， 其 读 取 速度 可 与 当时 的 SRAM 相 媲美 。 


我 们 将 整个 利用 向 量 显 示 器 显示 过 程 改 成 这 样 : 
Host 端 将 要 显示 的 字符 直接 使 用 ASCII 码 的 形式 写 入 
到 显卡 上 的 显存 中 ， 该 显存 容纳 80 行 25 列 共 2000 个 字 
符 ， 这 样 总 共 才 需要 2000X 8 位 =2KB 的 显存 ， 这 个 容 
量变 得 可 以 接受 。 然 后 ， 显 卡 必须 按照 一 定 频率 不 断 
地 将 显存 中 的 字符 ASCII 码 一 个 个 地 顺序 读 出 来 并 翻 
译 成 顺序 排列 的 字形 坐标 ， 用 这 些 坐 标 信息 驱动 着 光 
点 勾勒 出 对 应 的 线段 (每 个 字符 反复 勾勒 多 次 ) ， 只 
要 画 得 足够 快 ， 每 秒 画 出 比如 30 屏 的 字体 ， 就 可 以 形 
成 比较 稳定 的 图 形 。 所 有 字符 的 字形 坐标 值 共 29KB 
的 字形 库 被 放置 在 ROM 而 不 是 RAM 中 ， 再 使 用 前 置 
的 翻译 电路 ， 根 据 ASCII 码 译 码 ， 从 ROM 中 选 出 对 应 
字符 的 若干 个 顺序 排列 的 坐标 ， 然 后 依次 输出 给 前 端 
的 X 和 Y 轴 信号 驱动 电路 。 

所 以 ， 利 用 这 种 方式 ，Host 端 甚至 也 不 需要 存 
放 字 形 文件 了 ，Host 端 只 需要 将 要 显示 的 字符 ASCII 
码 写 入 到 显卡 的 显存 中 ， 剩 下 的 事情 全 部 交 给 显卡 
完成 。 这 种 架构 下 的 显存 又 被 称 为 Text Buffer， 或 者 
Screen Buffer、Text Matrix 等 。 带 有 这 种 字库 ROM 的 
显卡 也 可 以 被 称 为 文字 加 速 显示 卡 。 


从 现在 开始 ， wass “Frame | 


Buffer” 和 “显存 ”这 两 个 概念 了 。 我 们 之 前 认为 
Frame Buffer 就 是 显存 ， 显 存 就 是 Frame Buffer, № 
期 的 简陋 显卡 是 这 样 的 。 但 是 随 着 显卡 的 功能 越 来 
越 强 ， 比 如 识别 文字 编码 并 显示 文字 对 应 的 图 形 ， 

用 于 接收 Host 端 发 来 的 文字 编码 的 存储 器 也 位 于 显 
卡 上 ， 也 算是 显存 ， 但 它 绝 不 是 Frame Buffers, RA 
在 后 文中 将 严格 区 分 这 两 者 。 


8.2.2.3 点 阵 文字 显示 模式 


那么 ， 如 果 使 用 APA 模 式 /Raster Scan 模式 的 像素 
显示 器 的 话 ， 字 形 库 里 放 的 就 不 是 字形 的 描绘 坐标 点 
信息 了 ， 而 是 要 放置 整个 字形 在 屏幕 上 跨越 的 每 个 像 
素 点 的 坐标 。 注 意 这 两 者 的 区 别 : 描绘 坐标 、 占 据 坐 
标 。 像 素 模式 下 ， 需 要 为 每 个 字形 记录 组 成 它 的 所 有 
像素 点 的 值 ， 而 不 能 只 记录 少量 的 描绘 坐标 值 。 假 设 
每 个 字形 采用 7X 9=63 个 像素 点 组 成 ， 此 时 2000 个 字 
形 共 需 耗费 15KB 的 存储 器 ， 所 以 ， 也 可 以 将 这 些 像 
素 点 值 放 到 ROM 中 。 

如 图 8-79 所 示 为 一 个 包含 128 个 字形 的 点 阵 字 形 
库 。 每 个 字形 由 7X9=63 个 点 组 成 ， 正 因 如 此 人 们 才 
称 之 为 “点 阵 ”， 或 者 说 位 图 。 字 体 本 体 跨 过 的 点 为 
黑色 ， 其 他 点 为 白色 ,或 者 反 过 来 。 所 以 ， 需 要 为 
每 个 字形 记录 63 位 的 信息 ， 黑 色 部 分 用 1 表示 ， 白 色 
部 分 用 0 表示 ， 即 可 。 图 中 可 以 看 出 字形 明显 的 颗粒 
感 ， 字 形 要 想 更 加 细腻 ， 那 就 需要 增加 点 的 密度 ， 比 
如 16X16， 但 是 相应 地 也 需要 记录 更 多 的 信息 。 


在 基于 像素 显示 器 上 显示 文字 和 图 形 ， 相 比 向 
量 方式 有 个 天 然 的 劣势 ， 就 是 文字 /图 形 会 存在 锯齿 
PAER HARHA, HA., WRF, WF 
字形 以 像素 为 基本 单位 来 拼接 ， 像 素 的 方形 边缘 不 
对 齐 ， 就 会 产生 锯齿 。 而 向 量 显示 器 是 任意 路 径直 
接 勾 勒 ， 边 缘 非 常 干净 无 锯齿。 


如 图 8-80 所 示 为 早期 的 利用 字形 库 ROM 向 像素 显 
示 器 播放 字形 信号 的 显卡 电路 模块 示意 图 。 其 中 最 左 
侧 的 Screen Memory 就 是 该 显卡 的 显存 。Host 端 的 程序 
将 对 应 的 字符 ASCII 码 根据 该 字符 要 被 放置 在 的 屏幕 
坐标 值 ， 写 入 到 对 应 的 显存 地 址 。 显 卡 中 的 Scanning 
扫描 电路 模块 不 断 地 从 显存 的 第 一 个 地 址 一 次 扫描 到 
最 后 一 个 地 址 ， 然 后 再 回来 继续 ， 其 将 读 出 的 每 一 个 
字符 的 ASCII 码 输送 到 图 中 的 Character Generator (5 
形 生成 器 ) 电路 模块 处 理 〈 内 含 字 形 库 ROM) 。 该 字 
形 生成 器 译 码 ASCI 码 然后 从 字形 ROM 中 选 出 对 应 的 
点 阵 值 输送 到 Shift Register ( 移 位 寄存 器 ) 。 还 记得 
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图 8-79 点 阵 字形 库 


其 他 章节 介绍 过 的 移 位 寄存 器 的 作用 吗 ? 它 可 以 作为 
一 个 并 转 串 的 转换 器 ， 将 其 中 存储 的 数据 一 位 一 位 地 
呈现 出 去 ， 这 样 就 可 以 将 点 阵 像素 点 的 值 一 个 一 个 输 
送 到 像素 显示 器 的 输入 信号 上 ， 只 要 将 移 位 寄存 器 的 
频率 与 显示 器 的 点 频 匹 配 起 来 即 可 。 


нук узус porcox NN 
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图 8-80 ”利用 ROM 存 放 字形 像素 并 向 像素 显示 器 播放 字形 


在 20 世 纪 70 年 代 左右 ， 普 通 消费 级 用 户 根本 负 
担 不 起 Frame Buffer 的 价格 ，Frame Buffer 哪 怕 只 
几 KB 大 小 ， 也 要 花费 数 百 美金 。 但 是 当时 依然 可 
以 显示 图 像 ， 人 们 是 这 样 去 解决 的 : 在 显卡 上 只 
存 能 够 让 显示 器 扫描 一 行 所 需要 的 像素 点 的 值 ， 比 
如 128 字 节 ，Host 端 每 次 从 主 存 中 搬运 128 字 节 到 这 
个 缓冲 器 内 ， 这 样 做 出 的 当时 的 游戏 机 ， 价 格 可 以 
控制 在 200 美 金 左右 。 但 是 这 种 做 法 也 只 适用 于 游 


戏 机 这 种 运行 单一 专用 程序 的 设备 。 如 果 是 PC 的 
话 ， 由 于 Host 端 CPU 需要 不 停 地 将 数据 输送 给 这 个 
缓冲 器 以 保证 足够 的 屏幕 刷新 率 ， 那 么 CPU 就 没有 
其 他 时 间 做 其 他 事情 了 。 当 时 的 这 种 显卡 或 者 显示 
控制 模块 被 称 为 Video Shifter， 也 就 是 基本 上 只 是 一 
个 带 有 128 字 节 左 右 缓冲 器 的 串 并 转换 模块 了 。 


思考 一 下 ， 如 图 8-81 所 示 。 一 个 字形 是 由 方形 点 
阵 组 成 的 ， 而 像素 显示 器 扫描 一 阵 行 的 过 程 中 ， 需 要 
按照 一 定 步调 ， 将 多 个 字形 的 对 应 行 的 像素 值 输出 出 
去 ， 这 显然 需要 一 个 控制 电路 不 断 地 从 字形 ROM 中 
提取 该 行 字符 中 的 每 一 个 轮流 上 阵 。 该 电路 需要 在 显 
示 器 换行 扫描 之 前 ， 告 诉 ROM 也 换行 输出 ， 而 且 在 扫 
描 同一 行 时 ， 每 当 跨 越 的 字形 变化 之 前 ， 该 电路 需要 
将 对 应 的 下 一 个 字形 的 ASCII 码 输送 给 ROM 控 制 电路 
译 码 。 显 示 器 扫描 的 每 行 像素 被 称 为 Scan Line (扫描 
R) 。 每 个 字符 所 占 的 方形 位 置 又 被 称 为 一 个 Cell， 
一 横行 Cell 组 成 一 个 Character Line, 
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图 8-81 扫描 一 行 会 跨 过 多 个 字形 
如 图 8-82 所 示 为 一 个 可 以 向 像素 显示 器 播放 字形 


肥大 话 计算 机 一 一 计算 机 系统 底层 架构 原理 极限 剖析 


的 完整 的 显卡 架构 实现 。 且 看 它 的 字形 生成 器 ， 有 两 
个 主要 输入 ， 分 别 为 从 显存 〈 图 中 Display RAM) 传 
送 来 的 用 于 控制 字形 选择 的 ASCI 码 输入 ， 以 及 从 Cell 
Line Counter 发 来 的 用 于 控制 让 ROM 输 出 对 应 字形 的 
对 应 的 Scan Line 上 的 像素 的 Row Address 信 号 。Cell 
Line Counter 又 被 称 为 Scanline Counter， 每 扫 过 一 行 该 
Counter+1， 扫 到 最 后 一 行 则 重 置 为 0。 


图 8-82 能够 向 像素 显示 器 播放 字形 的 完整 显卡 架构 


Dot Counter 相 当 于 把 系统 的 主 时钟 Clock 频 率 变 
频 为 显示 器 的 点 频 ， 从 而 输送 到 移 位 寄存 器 上 。 

移 位 寄存 器 从 字形 生成 器 拿 到 当前 需要 播放 的 像 
素 点 ， 然 后 串 行 地 按照 点 频 速率 发 送 到 显示 器 的 信号 
输入 端 。 

在 单个 Scanline 扫 描 期 间 ， 谁 来 控制 显存 在 每 个 
字形 扫描 结束 后 更 换 下 一 个 字形 输出 呢 ? 就 是 Cell 
Counter 来 负责 。 其 输入 信号 为 Dot Counter。 本 例 中 
每 个 字形 点 阵 由 7 列 组 成 ， 那 么 Dot Counter 每 数 完 7 个 
点 ， 就 向 Cell Counter 发 送 一 个 信号 表示 上 一 个 字形 
扫描 完毕 。 然 后 Cell Counter 便 会 将 自己 的 数值 (地 
址 ) +1， 然 后 将 +1 之 后 的 新 的 地 址 将 信号 输送 给 显存 
控制 电路 的 地 址 译 码 器 上 ， 从 而 让 显存 切换 输出 下 一 
个 字形 的 ASCI 码 给 ROM 控 制 电路 ， 最 终 将 下 一 个 字 
形 的 对 应 Scanline 行 (由 Row Address 信 和 号 控制 当前 的 
Scanline 值 ) 的 像素 输出 到 移 位 寄存 器 。 

图 中 的 uP 表示 Micro Processor， 泛 指 Host 端 
CPU。Host 端 需要 向 显存 中 写 入 对 应 的 ASCII 值 来 改 
变 屏 幕 上 显示 的 字符 ， 其 通过 地 址 总 线 、 数 据 总 线 向 
显存 传递 数据 ， 至 于 采用 什么 样 的 总 线 ， 就 形 形 色 
色 了 ， 比 如 早期 的 ISA、PCI 或 者 PCIX， 当 代 的 PCIE 


等 。 当 然 ， 那 时 候 基 本 上 采用 8 位 ISA 总 线 。 

如 果 将 该 显卡 改造 为 能 够 驱动 向 量 显 示 器 的 显卡 
的 话 ， 那 么 需要 将 字形 库 ROM 中 存 入 字形 的 绘制 坐 
标 值 ， 而 且 需 要 用 两 个 移 位 寄存 器 分 别 输出 X 和 Y 坐 
标 值 ， 其 前 端 还 需要 加 上 对 应 的 DAC 电 路 转换 为 电 平 
值 。 同 时 需要 将 外 部 接口 从 像素 显示 器 常用 的 VGA 接 
口 更 换 为 向 量 显示 器 的 X 和 Y 信 号 对 应 的 物理 接口 。 

对 于 空格 字符 ， 其 应 该 在 屏幕 上 显示 一 个 真 的 “ 空 
格 ”， 什 么 都 没有 ， 也 就 是 该 格子 内 的 像素 应 该 都 是 
背景 色 ， 也 就 是 如 图 8-79 中 的 第 三 行 第 一 个 字符 。 

总 结 一 下 ， 最 早期 RAM 非 常 昂贵 ， 人 们 普遍 只 
可 以 接受 几 KB 的 显存 容量 。 那 时 如 果 想 用 显示 器 显 
示 任 意图 形 就 只 能 通过 价值 数 千 美元 〈 第 一 块 商用 
Frame Buffer 售 价 一 万 五 千 美金 ， 可 存储 512X 512 个 8 
位 色彩 的 像素 ) 的 Frame Buffer 和 像素 显示 器 实现 。 
为 此 ， 多 数 场景 都 是 只 显示 字形 。 字 符 的 形状 比较 简 
单 ， 只 用 少数 像素 就 可 以 描述 ， 而 且 就 算 使 用 带 颜 色 
的 字符 ， 同 一 个 字符 的 颜色 一 般 只 有 一 种 ， 而 不 会 出 
现 一 个 字形 中 不 同 像素 点 有 不 同 颜色 的 需求 ， 所 以 显 
示 一 整 屏幕 字符 需要 几 十 KB 量 级 的 显存 即 可 ， 但 是 
这 仍然 超出 了 “ 几 KB ”的 限制 。 为 此 ， 人 们 将 字形 
的 像素 信息 放 到 更 廉价 的 ROM 中 ， 显 存 RAM 中 改 为 
存储 字形 的 ASCII 码 ， 用 硬件 电路 根据 ASCII 码 选取 
ROM 中 对 应 的 像素 播放 到 像素 显示 器 ， 或 者 从 ROM 
中 选 出 对 应 的 描绘 坐标 信息 播放 到 向 量 显示 器 。 如 图 


8-83 所 示 为 文字 模式 的 最 终 实 现 效果 。 
ME 


图 8-83 文字 模式 最 终 的 实现 效果 


试想 一 下 ， 如 果 只 显示 一 个 静态 的 字符 ， 这 是 
不 是 很 没 活力 ? 是 的 。 如 果 能 够 给 文字 加 上 闪烁 、 
加 下 画 线 、 加 粗 、 删 除 线 等 特效 ， 这 是 不 是 会 更 
好 ? 有 些 文字 模式 的 显卡 就 支持 这 种 特效 。Host 端 
只 需要 将 每 个 文字 对 应 的 特效 控制 位 随 着 文字 的 
ASCII 码 一 同 写 入 显存 ， 显 卡 的 译 码 电路 就 会 根据 
这 些 特效 控制 位 ， 控 制 着 电路 将 这 些 特 效 琶 加 到 对 
应 的 输出 信号 中 。 注 意 ， 所 谓 特 效 ， 就 是 后 期 加 入 
的 ， 而 不 是 预先 定义 好 的 。 比 如 ， 将 每 个 字形 都 生 


成 一 份 带 删除 线 的 副本 ， 以 及 一 份 带 下 画 线 的 副 
本 ， 这 样 需要 的 存储 容量 将 会 翻 倍 。 这 些 特 效 都 是 
在 移 位 寄存 器 前 端 放置 一 个 专门 生成 对 应 像素 的 电 
路 ， 自 行 生成 器 输出 的 还 是 标准 字形 。 比 如 这 些 
特效 电路 会 计算 删除 线 的 位 置 ， 然 后 到 达 对 应 的 
Scanline 之 后 ， 这 些 电 路 将 删除 线 对 应 的 像素 点 强行 
塞 入 移 位 寄存 器 〈 利 用 MUX 来 抢 路 ) ， 从 而 输出 删除 线 
以 及 其 他 任意 特效 。 删 除 线 、 下 画 线 很 好 处 理 ， 但 是 加 
粗 就 很 不 好 处 理 ， 可 能 需要 引入 较 大 量 计算 。 


8.2.2.4” 单 色 显示 适配器 


如 图 8-84 上 方 所 示 为 BM 在 1981 年 推出 的 单 色 显 
示 适 配器 (Monochrome Display Adapter，MDA) 文 
字 加 速 显 示 卡 。 其 为 一 张 文 字 模式 的 显卡 。 其 支持 
像素 显示 器 ，80X25=2000 字 符 的 屏幕 显示 ， 每 字符 
9X14 像 素 ， 拥 有 256 字 符 的 字形 库 。 可 以 看 到 其 卡 上 
中 间 横 着 的 主 控 芯 片 以 及 主 控 左边 面积 最 大 的 那 块 字 
形 库 ROM 芯 片 。 

MDA 有 4KB 的 显存 。 仔 细 算 一 下 ，2000 个 字符 每 
个 8 位 的 ASCII 编 码 的 话 ，2KB 显 存 就 足够 了 ，MDA 
为 何 需要 4KB? MDA 支 持 对 显示 的 字符 添加 各 种 上 述 
的 特效 ， 那 么 就 必然 为 每 个 字符 增加 对 应 的 信息 来 描 
述 这 些 特效 。 所 以 ，MDA 在 显存 中 为 每 个 字符 额外 
添加 了 1 字 节 的 属性 描述 ， 就 变 成 KB 了 。Host 端 在 向 
显存 中 写 入 字符 ASCII 编 码 时 也 要 一 同 带 有 这 个 字 节 
额外 的 属性 信息 。 另 外 。MDA 对 字符 编码 进行 了 扩 
充 ， 除 了 包含 标准 ASCII 编 码 的 字符 之 外 ， 还 扩充 了 
一 些 其 他 字符 ， 整 个 码 表 被 称 为 “Code page 437”, 
这 也 是 当年 IBM PC 机 显卡 广泛 使 用 的 文字 模式 显示 
时 的 字符 编码 。 

图 8-84 下 方 所 示 为 联想 当年 推出 的 带 有 汉字 字形 


库 的 “ 汉 卡 ”。 汉 卡 的 原理 其 实 就 是 把 汉字 的 字形 像 
素 信息 〈 如 图 8-85 所 示 ) 记录 到 ROM 中 ， 同 时 Host 端 


也 需要 使 用 对 应 的 汉字 字符 编 〈 比 如 区 位 码 ) 码 来 控 
制 显卡 显示 对 应 的 字形 。 中 文字 形 库 的 容量 会 比 英文 
字母 字形 库 大 得 多 。 


Clock crystal 


第 8 章 ”绘声绘色 一 一 计算 机 如 何 处 理 声音 和 | 医 


图 8-85 汉字 字形 库 

如 图 8-86 所 示 ，MDA 采 用 DE-9 针 接口 ， 其 中 7# 
针 传送 像素 数据 ，6# 传 送 灰 度 信息 。MDA 卡 还 提供 
了 一 个 打印 接口 ， 可 以 将 字符 信息 转换 为 驱动 打印 头 
运动 的 信号 ， 从 而 实现 打印 。 仔 细 想 来 ， 显 示 器 和 打 
印 机 的 本 质 其 实 是 相同 的 。 


Pin Function 


1 Ground 


图 8-86 ”DE-9 接 口 


这 种 可 以 将 字形 生成 的 工作 从 Host 端 解脱 出 来 ， 
利用 显卡 从 硬 字形 库 中 提取 字形 并 显示 的 方式 ， 称 
为 文字 显示 加 速 ， 对 应 的 像 MDA 这 样 的 文字 模式 显 
卡 ， 则 被 称 为 文字 加 速 卡 。 

MDA 的 4KB 显 存 被 映射 到 系统 全 局 地 址 空间 中 的 
0xB0000 处 ，Host 端 程序 只 要 向 从 这 里 开始 的 4KB 中 
写 入 对 应 的 字符 描述 信息 ， 就 可 以 动态 在 显示 器 上 显 
示 出 对 应 的 内 容 。 

如 图 8-87 所 示 ， 将 对 应 字符 的 ASCII 码 (135) 


图 8-84 IBM 在 1981 年 推出 的 MDA 文 字模 式 显 卡 


855 


有 35 可 大 话 计算 机 一 一 计算 机 系统 底层 架构 原理 极限 剖析 


和 描述 闪烁 等 特效 的 属性 信息 〈1 字 节 ) 放置 到 显存 
中 对 应 的 位 置 ， 显 卡 就 在 屏幕 对 应 位 置 上 显示 对 应 的 
字符 。 图 中 的 显存 被 映射 到 了 0xB8000， 而 不 是 上 述 的 
0xB0000， 原 因 是 该 图 表述 的 是 比 MDA 显 卡 更 高 级 的 
VGA 显 卡 采 用 的 映射 方式 ， 我 们 下 文中 再 介绍 VGA。 


Memory 
Address 
(in hex) 
B8000 


Display Buffer 


Character Code А 
B8001 
Attribute А 

B8002 (Example of a 40 by 25 Screen) 
Character Code B 
B8003 
Attribute B 


B87CE 
Video Screen 


Character Code X 


B87CF 


Attribute X 


图 8-87 ”显存 中 的 字符 ASCI 码 和 属性 


8.2.2.5 点 阵 作 图 与 ASCII Art 


计算 机 领域 的 20 世 纪 ， 是 个 奇妙 、 时 刻 产 生 着 新 
变化 的 时 代 。 那 时 候 的 人 总 在 想 ， 到 底 怎么 在 不 花 大 
钱 的 情况 下 用 电脑 显示 图 片 ， 甚 至 运行 图 形 游戏 。 试 
想 一 下 ， 如 果 每 个 像素 为 双 〈 黑 白色 ) 色 而 不 是 任意 
颜色 的 话 ， 那 么 每 个 像素 只 需要 1 位 来 表示 其 是 黑色 
还 是 白色 。 这 样 是 不 是 可 以 在 不 耗费 太 多 显存 的 情况 


TEXT VIDEO 
Hav мом 
SNC (ОРПОМА 


6 фо во 


下 ， 形 成 任意 像素 图 形 ? 

终于 ，Matrox 公 司 后 来 推出 了 一 款 名 为 ALT- 
256**2 的 显卡 。 该 显卡 支持 像素 显示 器 ， 采 用 了 8KB 
〈65536 位 ) 的 RAM 作 为 显存 。 这 65536 位 形成 了 一 个 
像素 矩阵 ，Host 端 只 需要 将 对 应 的 1 或 者 0 写 入 显存 中 
对 应 bit， 就 可 以 用 黑白 色 做 出 任意 图 形 了 。 该 显卡 本 
质 上 就 是 一 个 Frame Buffer， 只 不 过 是 只 有 65536 像 素 
低 分 辩 率 的 黑白 双色 图 形 显卡 。 如 图 8-88 所 示 为 该 显 
卡 的 架构 示意 图 以 及 用 它 生成 的 图 像 。Host 端 处 理 器 
可 以 通过 地 址 总 线 将 X 和 站 〈 行 和 列 ) 地 址 写 入 到 显 
卡 内 部 控制 读 写 显存 的 模块 的 对 应 寄存 器 中 ， 这 样 就 
可 以 选 通 内 存 阵列 中 的 1 个 bit， 然 后 可 以 向 该 bit 写 入 
1 或 者 0 来 控制 它 的 颜色 。 该 显卡 不 支持 文本 模式 ， 但 
是 可 以 通过 Host 端 加 载 软 字 形 库 ， 将 提取 出 的 像素 利 
用 上 述 方式 写 入 显存 ， 一 样 可 以 显示 文字 。 或 者 该 卡 
支持 用 其 他 文字 卡 生 成 的 像素 信号 与 自己 的 像素 信号 
释 加 ， 从 而 将 其 他 显卡 生成 的 文字 像素 与 自己 生成 的 
图 像 像素 混 倒 起来， 形成 更 好 的 效果 。 

看 上 去 不 错 ， 但 是 分 辩 率 实在 是 太 低 。 下 图 那 
张 蒙 娜 丽 莎 的 图 片 ， 其 实 是 在 当代 使 用 数码 相机 拍摄 
的 照片 ， 翻 译 成 低 分 辩 率 像素 值 ， 然 后 使 用 3 块 ALT- 
256**2 显 卡 共同 生成 的 。 另 一 张 图 片 则 是 当时 的 真实 
场景 。 全 是 RAM 太 贵 惹 的 祸 。 

难道 不 能 将 图 形 像素 也 放 到 大 容量 ROM 中 么 ? 
ROM 中 其 实 什 么 像素 形状 都 可 以 放 ， 关 键 问 题 是 ， 
你 能 保证 任意 图 形 都 可 以 分 解 为 可 接受 数量 的 、 有 
限 的 、 最 基本 的 形状 么 ? 肯定 不 能 。 那 你 看 这 样 行 
不 行 : 我 把 65536 种 颜色 的 像素 点 放 到 ROM 中 ， 然 
后 用 类 似 ASCII 码 的 方式 从 中 选 出 对 应 的 像素 输出 给 
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图 8-88 ”ALT-256**2 黑 白 图 形 显卡 


显示 器 ? 可 以 。 但 是 这 样 根本 节省 不 了 任何 存储 空 
间 ， 反 而 多 耗费 了 ， 因 为 每 个 像素 的 颜色 你 也 得 用 16 
位 描述 ， 在 RAM 显 存 中 要 为 每 个 像素 分 配 16 位 ， 相 反 
ASCII 只 需要 8 位 描述 每 个 字符 。 同 时 ， 在 ROM 中 记录 
每 个 像素 的 颜色 也 需要 16 位 /颜色 ， 因 为 DAC 需 要 根据 
这 16 位 值 来 生成 对 应 的 三 原色 电压 值 输送 给 像素 显示 
器 。 这 样 的 话 ， 还 不 如 直接 用 RAM 来 存储 每 个 像素 。 

但 是 ， 是 不 是 可 以 通过 牺牲 图 片 质量 ， 用 一 些 
基本 图 形 近 似 的 拼接 出 任意 图 形 ? 这 个 就 可 以 了 。 
ASCII Art 其 实 就 是 我 们 常见 的 字符 画 。 如 图 8-89 所 
示 ， 人 们 的 智慧 是 无 穷 的 。 当 然 ， 这 种 画 属 于 抽象 的 
表达 ， 算 是 一 种 艺术 表达 形式 ， 其 分 辩 率 只 够 让 人 看 
出 个 大 致 轮廓 。 

使 用 ASCII Art 一 样 可 以 制作 出 游戏 。 虽 然 这 种 
游戏 在 今天 看 来 很 不 入 流 ， 但 是 对 于 20 世 纪 的 人 们 来 
讲 ， 只 要 电脑 能 够 “自动 ”演示 一 些 东 西 ， 而 不 是 几 
行 字母 加 一 个 闪 动 的 光标 ， 那 就 会 让 人 极度 兴奋 ， 比 
如 当 运 行 一 个 游戏 之 后 电脑 屏幕 短暂 的 黑屏 ， 然 后 出 
现 设计 好 的 图 形 /文本 的 那 一 刹那 的 时 候 。 


8.2.3 图形 模式 


要 想 实现 更 高 分 辩 率 更 细腻 的 图 片 ， 必 须 用 大 容 
量 的 Frame Buffer。 所 以 ， 一 直到 Frame Buffer 成 本 降 
低 到 几乎 成 了 所 有 显卡 的 标 配 之 后 ， 计 算 机 图 形 领 域 
才 逐 步 进 入 莲 勃 发 展期 。 当 然 ， 这 时 的 Frame Buffer 
的 形态 也 随 着 芯片 制造 工艺 的 提升 发 生 了 很 大 变化 ， 
RAM 芯 片面 积 更 小 了 ， 可 以 直接 被 集成 到 显卡 母 板 
上 ， 而 不 需要 用 单独 的 像 图 8-67 那 样 的 Frame Buffer 
卡 了 。 在 20 世 纪 末 的 计算 机 图 形 领域 ，IBM 公 司 开创 
并 引领 了 业界 标准 ， 其 接连 推出 了 CGA、MCGA、 
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PGC、EGA、VGA 等 一 系列 图 形 显示 规格 标准 。 
8.2.3.1 Color Graphics Adapter ( CGA ) 


在 推出 MDA 之 后 ，IBM 又 在 1981 年 推出 了 带 有 
16KB 显 存 的 CGA 显 卡 ， 其 为 BM PC 机 上 的 第 一 块 图 
形 卡 ， 所 以 非常 流行 。 如 图 8-90 所 示 为 CGA 显 卡 的 实 
物 图 。 其 依然 是 由 中 央 的 一 片 显 示 主 控 ， 加 上 左边 那 
片面 积 最 大 的 字形 ROM 芯 片 ， 再 加 上 一 堆 外 围 的 显 
存 、 时 序 、 译 码 等 芯片 组 成 ， 采 用 ISA 前 端 VO 接 口 与 
计算 机 主板 相连 。 

如 图 8-91 所 示 为 CGA 显 卡 内 部 架构 框图 ， 其 基本 
运作 流程 与 前 文中 介绍 的 类 似 。 其 使 用 DE-9 针 接口 
连接 显示 器 ， 由 于 支持 多 颜色 显示 ， 所 以 图 8-86 中 的 
3# 、4#、5# 针 被 用 来 传递 RMGB 三 原色 的 电 平 值 。 

MDA 用 4KB 显 存 来 存放 字符 的 ASCII 码 和 显示 特 
效 属性 ， 而 CGA 则 使 用 16KB 显 存 作为 Frame Buffer 来 
直接 存放 像素 数据 ， 这 16KB 的 存储 器 空间 被 映射 到 
当时 的 CPU 全 局 地 址 空间 中 的 0xB8000 处 。 一 直到 今 
天 ， 当 代 的 最 新 显卡 都 可 以 模拟 兼容 CGA 卡 ， 也 就 是 
目前 最 新 的 显卡 的 确 会 映射 一 块 显存 到 这 个 地 址 上 ， 
并 且 接 收 与 CGA 相 同 的 寄存 器 控制 信息 和 字符 格式 / 
属性 信息 并 显示 文本 。 

CGA 显 卡 支持 最 高 16 种 颜色 的 显示 。 它 同时 兼 
容 MDA 的 文本 显示 模式 ， 也 就 是 说 ， 它 在 显卡 上 依 
然 集成 了 与 MDA 相 同 的 字形 库 ROM， 以 及 依然 可 以 
支持 向 显存 中 写 入 对 应 格式 的 字符 编码 和 属性 信息 ， 
通过 ROM 字 形 生 成 器 向 显示 器 上 输出 字符 。 当 CGA 
卡 被 配置 为 运行 在 文字 模式 下 时 ， 其 16KB 存 储 器 会 
用 4KB 作 为 存放 文字 ASCII 码 的 显存 ， 其 余部 分 作为 
Frame Buffer， 这 两 部 分 显存 会 被 分 别 映射 到 Host 端 地 
址 空间 的 对 应 位 置 ， 其 中 显存 被 映射 的 位 置 与 MDA 
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8-90 IBM 推 出 的 CGA 显 卡 实物 图 


卡 保持 一 致 ， 从 而 兼容 MDA。 

CGA 支 持 彩 色 输 出 ， 所 以 可 以 支持 显示 彩色 字 
符 ， 所 以 属性 信息 中 需要 携带 字符 色彩 ， 包 括 指定 本 
体 颜 色 〈 前 景色 ) 和 背景 颜色 信息 。 如 图 8-92 所 示 为 
CGA 字 符 模式 下 显存 中 存放 的 针对 每 个 字符 的 2 字 节 
的 描述 信息 格式 。 

CGA 显 卡 支持 如 下 几 种 图 形 显示 模式 : 320X200 
像素 分 辩 率 每 像素 4 色 〈 可 选取 16 种 颜色 中 的 4 种 ， 通 
过 寄存 器 控制 ) ，640X200 像 素 分 辨 率 每 像素 2 色 ; 
160X100 像 素 分 辨 率 每 像素 16 色 。CGA 显 卡 也 支持 下 
面 两 种 文字 显示 模式 : 40X25 字符 数 每 字符 8X8 像 
Ж 〈 共 320X200 像 素 ) ; 80X25 字符 数 每 字符 8X8 
像素 〈 共 640X200 像 素 ) 。 

可 以 通过 CGA 的 相关 寄存 器 来 让 显卡 工作 在 任 
何 一 种 图 形 模式 或 者 文本 兼容 模式 下 。 比 如 位 于 地 址 
03D8h 的 Mode Control Register， 其 中 不 同 的 bit 控 制 着 
显卡 运行 在 上 述 几 种 显示 模式 下 ; 位 于 地 址 03D9h 的 
Color Control Register， 其 中 的 bit 用 于 控制 各 种 颜色 选 
择 。 位 于 地 址 03DAh 的 Status Register, 
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CGA 只 支持 16 色 显示 ， 其 利用 4 位 来 控制 颜色 ， 
也 就 是 说 图 形 模式 下 Frame Buffer 中 每 个 像素 点 最 
高 可 以 占据 4 位 。 但 是 如 果 运 行 在 320X 200 分 辩 率 
下 ， 每 个 像素 只 能 用 2 位 表示 ， 因 为 320X200X2 
位 =16KB，CGA 一 共 只 有 16KB 的 Frame Buffer。 所 
以 ， 分 辩 率 和 颜色 数量 是 此 消 彼 长 的 关系 。16 色 下 
的 分 辩 率 只 能 做 到 160X 100， 按 理 说 应 该 可 以 做 到 
160X200， 或 者 320X 100， 但 是 后 两 者 的 画面 比例 比 
较 奇 怪 ， 为 了 保持 画面 比例 不 变 ， 所 以 最 终 支持 到 
160X100。 此 时 Frame Buffer 中 会 有 8KB 的 空余 ， 可 以 
存储 两 屏 的 像素 ， 此 时 Host 端 可 以 将 新 显示 的 数据 写 
入 到 第 二 屏幕 Frame Buffer， 显 卡 扫描 完 第 一 个 8KB， 
随即 扫描 第 二 个 8KB，Host 再 向 第 一 个 8KB 写 入 新 像 
素 值 ， 这 样 会 让 画面 更 加 流畅 。 这 个 技术 在 第 5 章 中 
其 实 预先 介绍 过 。 

如 图 8-93 所 示 为 CGA 显 卡 的 16 色 色谱 以 及 在 不 同 
色彩 模式 下 的 显示 效果 。 图 8-94 为 16 色 160X100 分 辨 
率 的 显示 。 
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8-91 CGA 显 卡 内 部 架构 框图 
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图 8-92 
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图 8-94 ”16 色 160X 100 分 辩 率 图 样 


其 用 于 描述 颜色 的 4 位 的 值 中 ， 有 3 位 是 描述 R/G/ 
B 分 量 值 ，1 位 用 于 给 出 灰 度 值 。 也 就 是 说 R/G/B 三 个 
值 只 能 是 000〈 全 黑 ) 、111 (全 白 ) 001 СЕ) ~ 
010 СЯП) ~ 011 〈 绿 + 蓝 = 纯 青 ) 、100〈 纯 红 ) 、 
101〈 红 + 蓝 = 纯 紫 ) 、110《〈 红 + 绿 = 纯 黄 ) ， 在 这 8 种 颜 
色 基 础 上 ， 再 用 1 位 的 灰 度 来 调和 ， 最 终 上 述 每 种 颜色 
产生 一 明 一 暗 两 个 变种 ， 最 终 产生 如 图 8-93 左 侧 所 示 
的 16 色 的 色谱 。 之 所 以 要 产生 同一 种 色调 的 暗色 ， 是 
因为 这 样 可 以 做 出 更 加 有 层次 感 的 图 片 ， 比 如 阴影 、 
轮廓 等 处 ， 这 些 地 方 都 需要 使 用 暗色 来 调和 。 如 果 屏 
幕 上 所 有 像素 都 是 同一 种 灰 度 ， 那 么 纵使 色调 数量 很 
多 ， 也 无 法 产生 明暗 相间 有 层次 感 的 图 形 。 

对 于 那些 只 能 以 4 色 显 示 的 分 辨 率 模式 ， 这 4 种 
颜色 要 从 16 色 中 的 哪 4 种 选 出 来 呢 ? 为 此 CGA 给 出 了 
两 种 调 色 板 选择 ， 如 图 8-95 所 示 。 如 何 选择 使 用 哪 种 
调 色 板 ? 通过 设置 CGA 显 卡 的 Color Control Register 
中 的 第 5 位 为 1 还 是 0 来 控制 。 如 何 设置 该 寄存 器 ? 当 
然 是 通过 ISA 总 线 发 起 访 存 操作 访问 该 寄存 器 被 映射 
在 系统 全 局 地 址 空间 中 的 对 应 地 址 ， 我 想 对 于 这 个 
问题 ， 如 果 你 仔细 阅读 了 第 7 章 ， 自 会 胸有成竹 。 在 
640X200 分 辩 率 下 ， 系 统 只 能 显示 黑白 两 色 ， 所 以 就 


不 需要 调 色 板 了 。 
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WA, MAER Pale ， 其 物理 实体 是 什 
Z? 还 记得 上 文中 介绍 过 的 RAMDAC 人 么 ?其 利用 
一 小 片 SRAM 存 放 调 色 信息 ， 然 后 向 DAC 输 出 R/G/ 
B 三 路 信号 的 模拟 量 。 这 个 RAMDAC 可 以 被 配置 为 
当 收 到 比如 R/G/B=0/1/1 的 数字 量 时 ， 将 其 翻译 为 另 
一 套数 字 量 ， 比 如 R/G/B=00/11/10， 或 者 比如 R/G/ 
B=11/01/10 等 ， 也 就 是 将 原本 3 位 的 颜色 值 转换 为 6 位 
输出 。DAC 再 将 6 位 色 值 翻译 成 对 应 的 模拟 量 输出 给 
RGB 线路 。SRAM 中 存放 的 其 实 就 是 原始 色 值 一 扩 
充 色 值 的 映射 表 ， 这 个 表 被 称 为 Color Lookup Table 
(CLUT) 。 只 要 存放 多 套 映射 表 ， 就 可 以 产生 多 
套 调 色 方 案 。 这 样 ，Frame Buffer 中 只 需要 存储 原始 
低位 数 色 值 ， 只 在 调 色 板 SRAM 中 存储 比较 小 的 映 
射 关 系 即 可 。 假 设 某 显卡 共 可 生成 64 种 颜色 ， 有 2 套 
调 色 板 ， 每 个 像素 在 Frame Buffer 中 占用 4 位 (RGBI/ 
红 绿 蓝 和 灰 度 ) ， 第 一 套 调 色 方案 是 将 R/G/B=0/0/0 
映射 为 R/G/B=10/10/10，R/G/B=1/1/1 映 射 为 R/G/ 
B=11/11/11; 第 二 套 方案 则 是 将 R/G/B=0/0/0 映 射 为 R/ 
G/B=01/01/01，R/G/B=1/1/1 映 射 为 RIG/B=10/10/10。 
只 要 改变 SRAM 中 的 映射 信息 ， 然 后 用 寄存 器 切换 调 
色 方案 ， 就 可 以 切换 任意 色调 。 当 然 ， 多 数 产品 不 
允许 改变 RAMDAC 中 的 映射 信息 ， 只 提供 固定 的 几 
套 调 色 板 可 切换 。 一 般 来 讲 ， 每 个 像素 原始 色 值 通道 
(R/G/B 通 道 ) 被 映射 到 的 扩充 色 值 中 起 码 要 有 1 位 来 
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表示 该 色 值 通道 的 灰 度 值 ， 这 样 才能 产生 明暗 相间 有 
层次 感 的 图 形 。 

对 于 像素 原始 色 值 位 数 与 色 库 中 的 颜色 色 值 位 数 
为 1: 1 的 场景 下 ， 像 素 原始 色 值 相 当 于 一 个 索引 ， 系 
统 去 色 库 中 对 应 的 行 读 出 对 应 的 R/G/B 色 值 位 ， 然 后 
输出 颜色 。 有 些 显 卡 支持 程序 改变 色 库 中 某 一 行 的 R/ 
G/B 色 值 ， 从 而 可 以 让 像素 原始 色 值 映 射 成 任意 其 他 
颜色 。 通 过 这 种 方式 可 以 做 成 动画 。 


早期 的 Windows 系 统 比如 Win98、WinXP 的 启 
动 界面 中 的 屏幕 滚动 条 ， 其 实 就 是 通过 改变 不 同 的 
调 色 板 寄存 器 来 实现 的 动画 效果 。 滚 动 期 间 根本 不 
需要 重新 写 入 新 值 ， 只 利用 不 同 的 调 色 参数 ， 显 卡 
就 会 动态 改变 相同 原始 色 值 的 实际 输出 颜色 ， 经 过 
仔细 调 校 后 ， 形 成 了 滚动 效果 的 动画 。 


在 DOS 操 作 系统 下 ， 可 以 使 用 对 应 的 命令 改变 
CGA 显 卡 的 显示 模式 ， 这 些 命令 底层 都 是 向 显卡 的 控 
制 寄存 器 地 址 写 入 对 应 的 位 来 实现 的 。 具 体 的 命令 大 
家 可 以 自行 查询 。 在 图 形 模式 下 显示 字符 ，Host 端 程 
序 需要 自行 搞定 每 个 字符 的 像素 ， 所 以 需要 用 软 字形 
库 。 一 般 来 讲 ， 在 现代 操作 系统 下 ， 这 些 软 字形 库 会 
被 存储 到 对 应 的 字体 文件 中 。 而 主板 BIOS 运 行 时 操作 
系统 还 没有 启动 ， 没 有 文件 系统 的 支持 ， 这 些 软 字形 
库 就 只 能 存放 在 主板 BIOS ROM 中 ， 字 形 库 的 地 址 被 
映射 到 0xFFA6E 处 ， 其 存放 了 127 个 基本 字符 的 字形 
库 ， 显 示 字 符 的 过 程 需要 BIOS 内 的 程序 将 字符 像素 值 
读 出 然后 写 入 到 Frame Buffer 中 。CGA 的 Frame Buffer 
被 映射 在 全 局 地 址 空间 的 0xB8000 处 。 

MDA 的 文本 模式 只 需要 4KB 显 存 ， 那 么 如 果 
让 CGA 运 行 在 MDA 文 本 兼容 模式 下 ， 其 16KB 的 显 
存 其 实 可 以 存储 4 个 〈80X25 字 符 数 ) 甚至 8 个 屏幕 


够 让 字符 在 显存 中 待 着 不 动 ， 但 是 改变 扫描 的 起 始 
行 (通过 向 显卡 对 应 的 寄存 器 中 写 入 对 应 的 值 来 控 
制 ) ， 也 就 是 之 前 将 显存 的 第 一 行 扫描 并 显示 在 显示 
器 的 第 一 行 ， 现 在 改 为 从 第 二 行 开始 扫描 并 显示 在 显 
示 器 的 第 一 行 ， 这 样 不 就 可 以 做 到 将 后 续 所 有 行 的 数 
据 往 前 “挪动 ”一 行 了 么 ? 是 的 。 但 是 最 后 一 行 超出 
了 之 前 的 显存 边界 怎么 办 ? 可 以 利用 余 出 来 的 额外 显 
存 来 存放 。 用 这 种 方式 倒 换 ， 最 终 就 可 以 实现 在 不 重 
写 显 存 的 前 提 下 的 连续 的 屏幕 滚动 。 这 样 ， 通 过 多 份 
显存 Page， 在 滚屏 时 只 需要 写 一 个 显存 扫描 基地 址 寄 
存 器 值 就 可 以 了 ， 这 避免 了 Host 端 的 运算 量 和 IO 量 。 
这 个 技术 被 称 为 Smooth Scrolling。 


8.2.3.2 Enhanced Graphics Adapter (ЕСА) 
1984 年 ，IBM 推 出 了 相 比 CGA 规 格 更 高 的 EGA 显 


卡 ， 其 支持 的 显示 规格 如 图 8-96 所 示 。 
АРНА _|ВЏЕРЕЋ |BOX |МАХ. 
МОРЕ # |ТУРЕ |COLORS| FORMAT | START |SIZE|PAGES|RESOLUTION 
0 А/М | 16 40х25 | 88000 | вхв | 8 320х200 
1 AN | 16 40х25 | 88000 | 8х8 | 8 320х200 
2 AN | 16 80х25 | 88000 | вхв | 8 640х200 
з А/М | 16 80х25 | 88000 | вхв | 8 640х200 
4 АРА | 4 40х25 | 88000 | вхв | 1 320х200 
5 АРА | 4 40х25 | 88000 | вхв | 1 320х200 
6 APA|2 80х25 | ввооо | вх | 1 640х200 
D АРА | 16 40х25 | А0000 | 8х8 | 2/4/8 | 320х200 
Е АРА | 16 80х25 | 0000 | 8х8 | 1/2/4 | 640х200 


图 8-96 EGA 显卡 支持 的 显示 规格 

EGA 显 卡 支持 16 色 显示 ， 具 体 做 法 是 从 64 种 原色 
中 利用 调 色 板 实现 多 套 不 同 搭配 的 16 色 色谱 。 为 什么 
不 直接 支持 64 色 呢 ? 因为 这 样 每 个 像素 需要 使 用 6 位 
来 描述 ， 显 存 不 够 用 。 调 色 板 的 作用 就 是 可 以 将 少量 
的 像素 bit 对 应 成 多 个 RGB 值 ， 这 与 我 们 之 前 章节 中 介 
绍 过 的 Cache 和 RAM 之 间 的 映射 思想 有 相似 之 处 。 调 
色 板 具体 原理 已 经 在 上 文中 介绍 过 了 。 如 图 8-97 所 示 


(40X25 字 符 数 ) 容量 的 信息 ， 每 个 屏幕 被 称 为 一 个 
Page， 或 者 Text Page。 人 们 利用 这 一 点 实现 了 一 些 高 
级 功能 ， 比 如 在 屏幕 滚动 时 ， 需 要 重新 计算 所 有 字符 
的 位 置 ， 重 新 将 所 有 字符 写 入 显存 的 对 应 的 新 位 置 ， 
这 将 产生 较 大 的 计算 量 和 IO 量 。 试 想 一 下 ， 如 果 能 


为 EGA 显 卡 的 实物 图 。 

EGA 显 卡 拥有 64KB 显 存 ， 可 通过 板 载 连接 器 扩 
充 到 128KB 或 者 256KB。EGA 显 卡 依然 使 用 DE-9 接 口 
连接 显示 器 。 如 图 8-98 所 示 为 DE-9 接 口上 的 信号 一 览 
(左下 图 ) ， 以 及 当时 采用 的 彩色 显示 器 实物 图 ( 右 


图 8-97 


EGA 显 卡 实物 图 


下 两 图 ) 。 
如 图 8-99 所 示 为 BGA 显卡 的 64 色 色谱 以 及 运行 在 
640X350@16 色 时 的 效果 。 


8.2.3.3 Video BIOS ROM 的 引入 


EGA 显 卡 拥 有 16KB 的 ROM， 其 中 存放 有 两 套 各 
256 个 字符 的 字形 bitmap。 另 外 ， 这 片 ROM 中 还 存 有 
着 大 量 的 汇编 代码 程序 ， 这 些 程序 可 以 协助 Host 端 程 
序 完成 一 些 字符 /光标 显示 和 控制 、 显 卡 运行 模式 配 
置 、 寄 存 器 读 写 等 操作 。 也 就 是 说 Host 端 程序 只 需要 
调用 ROM 中 的 这 些 程序 ， 就 可 以 完成 图 像 的 显示 工 
作 ， 极 大 降低 了 Host 端 程序 代码 的 编写 负担 ， 不 过 并 
没有 降低 Host CPU 的 负担 ， 因 为 CPU 一 样 需要 运行 这 
些 代码 ， 只 不 过 这 些 代 码 被 存放 在 了 显卡 上 的 ROM 
中 。 至 于 这 些 代码 具体 如 何 实现 的 我 们 就 不 多 介绍 
了 ， 不 过 最 终 它们 也 都 是 去 更 新 显存 。 

那么 ，Host 端 程序 该 如 何 调用 这 些 代码 呢 ? 显 
卡 会 将 整个 16KB ROM 了 映射 到 Host 端 全 局 地 址 空间 的 
C0000h 处 开始 的 16KB 区 段 ， 程 序 只 要 知道 ROM 中 这 
些 不 同 程序 入 口 所 在 的 偏 移 量 ， 就 可 以 直接 以 函数 调 
用 的 方式 直接 调用 相应 地 址 上 的 这 些 代 码 。 但 是 这 样 
做 需要 程序 了 解 所 有 程序 入 口 地 址 ， 很 不 方便 。 所 
以 ， 人 们 使 用 另外 一 种 方式 来 调用 这 些 代 码 。 
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先 在 这 段 ROM 中 实现 一 个 中 断 服务 程序 ， 将 它 
放 到 ROM 中 国定 的 地 址 。 在 系统 的 中 断 向 量 表 中 将 
该 程序 地 址 挂 接 映 射 到 中 断 号 10h (由 操作 系统 比如 
DOS 启 动 时 自动 完成 ) 上 ， 然 后 在 CPU 上 实现 一 条 能 
够 让 程序 主动 触发 中 断 〈 被 称 为 软 中 断 ) 的 指令 ， 比 
如 “Int” 指 令 。 程 序 执行 Int 10h 后 ， 会 触发 CPU 主动 
去 中 断 向 量 表 中 查找 到 10h 号 中 断 对 应 的 中 断 服务 程 
序 指针 地 址 ， 执 行 该 地 址 的 代码 ， 就 可 以 调用 中 断 服 
务 程序 代码 了 ， 然 后 再 用 中 断 服务 程序 去 统一 调用 各 
个 功能 函数 ， 所 以 程序 不 需要 知道 各 个 功能 函数 的 地 
址 。 程 序 发 出 Int 指 令 后 ， 会 被 CPU 挂 起 暂停 执行 ， 之 
后 CPU 并 没有 闲 着 ， 而 是 去 对 应 的 指针 执行 了 后 续 各 
种 位 于 显卡 ROM 中 的 代码 。 再 次 重申 ， 这 些 ROM 中 的 
代码 是 被 Host 端 CPU 执行 的 ， 而 不 是 显卡 自身 执行 的 。 

那么 ， 程 序 要 让 显卡 做 事情 ， 就 得 把 做 指令 和 数 
据 传递 给 显卡 ， 程 序 可 以 将 对 应 的 操作 码 和 数据 预先 
载 入 Host CPU 上 的 规定 的 寄存 器 ， 这 样 ， 中 断 服务 
程序 运行 的 时 候 从 这 些 寄存 器 中 就 可 以 拿 到 对 应 的 信 
息 。 如 果 这 些 程序 有 需要 返回 的 内 容 ， 也 需要 将 其 放 
入 到 规定 的 Host CPU 寄存 器 中 ， 返 回 之 后 ，Host 端 的 
程序 从 这 些 寄存 器 中 就 可 以 拿 到 数据 。 如 表 8-1 所 示 
为 Int 10h 调 用 时 需要 在 其 他 寄存 器 中 给 出 的 部 分 参数 
值 一 览 ， 其 中 AH、AL、BH、BL、DX、CX 等 指 的 都 
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8-98 ”EGA 显卡 DE-9 信 号 一 览 及 当时 采用 的 彩色 显示 器 实物 图 


图 8-99 ”EGA 显卡 的 64 色 色谱 以 及 运行 在 640X350@16 色 时 的 效 
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表 8-1 Int 10h 调 用 时 需要 在 其 他 寄存 器 中 给 出 的 部 分 参数 值 一 览 


AL=5: 
AL=6: 402200 O 2 БЕК 
(CH) 0-3 = 光标 开始 行 


1 шоген (CL) 0-3 = 光标 结束 行 
2 виа 。 。 BH = де; DH = f; DL = | 
Е Ñ Н = 光标 开始 行 ，CL = 光标 结 
3 | Биле А ЕР 
AH=0 ажа, =1 
а пати СН-ФЖБ, BX-REA; 


А = BES 

АСИ = GAS: OH =S 
6 MAURES 上 角 行 号 ，CL = 左上 角 列 号 ; DH 
= SF863; DL = атайн 


右 下 角 行 号 ; DL = PARIS 


是 Host CPU 上 的 寄存 器 名 称 。 

同 理 ， 也 可 以 把 一 些 用 于 读 写 硬盘 的 程序 代码 放 
置 到 ROM 中 ， 当 然 是 主板 的 ROM， 也 就 是 BIOS 中 。 
用 同样 的 方式 ， 向 程序 提供 一 个 Int 13h 软 中 断 接口 ， 
从 而 操作 硬盘 。 那 么 为 什么 不 把 显卡 ROM 中 的 这 些 
程序 放置 到 主板 BIOS ROMPE? 或 者 说 为 什么 主板 
BIOS 中 不 集成 这 些 文字 显示 /光标 控制 程序 呢 ? 理论 
上 这 完全 可 以 ， 但 是 由 于 显卡 的 型 号 众多 ， 不 可 能 用 
同样 一 套 程序 控制 所 有 显卡 。 如 果 为 多 种 显卡 各 自 开 
发 各 自 的 操作 程序 (驱动 程序 ) ， 那 么 主板 BIOS 的 容 
量 将 会 非常 大 ， 这 也 不 现实 。 

正 因 如 此 ， 显 卡 厂 商 自行 开发 控制 自己 显卡 的 各 
种 功能 函数 并 将 其 放置 到 显卡 自身 ROM (或 者 俗称 
显卡 BIOS，Video BIOS) 中 ， 并 使 用 为 唯一 的 一 个 中 
断 服务 程序 来 统一 提供 调用 接口 ， 中 断 服务 程序 再 去 
调用 各 个 功能 函数 。 显 卡 厂商 与 早期 的 操作 系统 比如 
DOS 进 行 联合 适 配 ，DOS 操 作 系统 将 显卡 的 ROM 映 射 
到 全 局 地 址 空间 中 C0000 区 段 上 (通过 对 系统 的 访 存 
路 由 表 硬 件 寄存 器 进行 设 定 ， 让 所 有 访问 该 区 段 的 访 
存 请 求 通过 ISA 总 线 传递 给 显卡 ) ， 并 将 中 断 服务 程 
序 挂 接 到 Int 10h 向 量 上 ， 为 Host 程 序 提供 显示 服务 。 
而 硬盘 则 由 于 是 通用 设备 ， 不 同 厂商 的 硬盘 接收 的 其 
实 都 是 标准 的 SCSIATA 指 令 ， 所 以 可 以 做 成 通用 的 控 
制程 序 〈 通 用 块 设备 驱动 ) ， 直 接 放置 到 主板 BIOS 
ROM 中 ， 并 提供 Int 13h 调 用 。 还 记得 本 书 前 文中 介绍 
过 的 么 ， 主 板 BIOS 一 般 会 被 映射 到 系统 全 局 地 址 空间 
中 的 最 高 2MB 地 址 范围 。 

而 主板 BIOS ROM 和 显卡 BIOS ROM 几 乎 都 使 用 
了 可 擦 写 ROM， 读 取 速 度 比较 慢 。 为 了 加 快 这 些 代码 
的 执行 速度 ， 主 板 BIOS 自 身 可 以 将 自己 的 代码 直接 复 
制 到 系统 的 RAM 主 存 中 某 处 存放 ， 并 修改 中 断 向 量 
表 的 对 应 指针 指向 RAM 中 的 代码 位 置 ， 而 主板 BIOS 
占用 的 最 高 2MB 依 然 还 在 那里 被 映射 着 ， 访 问 这 段 地 
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DH= 字 符 行 ; DL= 字 符 列 
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址 的 请 求 依然 会 被 路 由 到 ROM 硬 件 中 执行 。 所 以 ， 
当 BIOS 把 自己 复制 到 RAM 中 之 后 ， 同 一 份 BIOS 代 码 
在 全 局 地 址 空间 中 会 有 两 个 副本 ， 一 个 在 RAM， 一 个 
在 ROM， 在 ROM 中 的 这 份 副本 后 续 就 不 会 再 被 访问 
了 ， 所 以 ROM 占 用 的 高 2MB 空 间 会 被 废 掉 。 对 于 那 
些 地 址 线 数量 很 少 的 CPU， 比 如 16 位 、32 位 CPU, iX 
块 地 址 空间 原本 可 以 被 映射 给 RAM， 但 由 于 被 ROM 
占用 了 ，RAM 的 可 用 容量 就 会 变 少 〈 比 如 4GB 的 
RAM 会 被 少 映射 2MB， 纵 使 物理 上 真 的 有 4GB) ， 这 
样 造 成 浪费 。 这 块 被 浪费 的 空间 被 俗称 为 Hole。 

同 理 ， 主 板 BIOS 主 程序 可 以 将 显卡 的 BIOS ROM 
复制 到 RAM， 加 快 显 示 服 务 调 用 的 执行 速度 。 这 种 
将 主板 ROM 中 的 代码 和 显卡 ROM 代 码 复制 到 RAM 后 
续 在 RAM 中 执行 的 方式 被 分 别称 为 BIOS Shadow 和 
Video BIOS Shadow。 当 然 ， 用 户 可 以 让 主板 BIOS 不 
复制 自身 或 者 显卡 ROM (可 以 分 别 设置 ) 到 RAM， 
通过 在 启动 时 的 BIOS 配 置 界面 中 选择 对 应 参数 即 可 。 
这 些 参数 会 被 保存 在 主板 上 的 一 片 CMOS 存 储 器 中 ， 
BIOS ROM 代 码 会 读 取 其 中 内 容 决 定 执行 方式 。 对 于 
现代 计算 机 来 讲 ，Shadow 对 性 能 的 提升 几乎 没有 ， 
因为 现代 的 操作 系统 几乎 不 调用 主板 BIOS 或 者 Video 
BIOS 内 部 提供 的 代码 ， 而 都 是 自己 实现 了 更 高 效 的 代 
码 。Shadow 还 会 占用 额外 的 RAM 空 间 ， 这 不 划算 。 

既然 如 此 ， 是 不 是 显卡 就 不 需要 把 显存 /Frame 
Buffer 映 射 到 全 局 地 址 空间 供 程序 直接 读 写 了 ? 可 以 
不 映射 但是， 通过 Video BIOS 中 的 程序 来 显示 图 
形 ， 性 能 比较 差 ， 因 为 程序 每 次 发 出 Int 软 中 断 指令 ， 
就 相当 于 一 次 函数 调用 。 试 想 ， 为 了 显示 一 点 点 像素 
值 ， 就 要 去 调用 一 次 函数 ， 这 个 效率 相 比 直接 向 显存 
/Frame Buffer 中 写 入 对 应 的 值 要 慢 得 多 。 所 以 显卡 依 
然 会 将 显存 /Frame Buffer 映 射出 去 ， 程 序 依然 可 以 选 
择 直接 操作 显存 /Frame Buffer 的 方式 来 显示 图 像 ， 而 
不 是 通过 调用 Video BIOS 中 的 程序 。 实 际 上 ， 很 多 游 


戏 程序 也 的 确 是 直接 操作 显存 /Frame Buffer。 只 有 那 
些 对 图 形 性 能 要 求 不 高 的 程序 ， 为 了 追求 便捷 ， 才 
去 调用 Video BIOS。 另 外 ， 设 置 显卡 的 工作 模式 、 分 
状 率 、 颜 色 等 步骤 ， 也 可 以 通过 调用 Video BIOS 来 完 
成 ， 而 且 可 能 必须 调用 ， 因 为 显卡 可 能 并 不 会 把 其 内 
部 的 各 种 配置 寄存 器 都 映射 到 系统 全 局 地 址 空间 中 供 
程序 直接 读 写 。 但 这 样 风险 比较 高 ， 一 旦 程序 bug 乱 
写 寄 存 器 ， 就 会 导致 问题 。 所 以 ， 这 些 任 务 也 被 统一 
挂 到 了 Int 10h 中 。 

有 些 极 客 / 驴 客 /黑客 们 利用 程序 直接 将 Video 
ROM 中 的 所 有 字 节 读 出 来 ， 可 以 发 现 里 面 会 包含 有 对 
应 的 字形 bitmap， 然 后 把 玩 一 番 。 比 如 其 中 一 种 玩法 
就 是 在 图 形 模式 下 显示 字符 ， 为 了 节省 工作 量 ， 可 以 
直接 将 对 应 字形 从 ROM 中 取出 然后 直接 填充 到 图 形 模 
式 的 Frame Buffer 中 。 因 为 字形 本 来 就 在 ROM 中 实现 
好 了 ， 没 必要 自己 去 编写 一 套 字形 bitmap。 同 理 ， 有 
些 显卡 支持 升级 Video BIOS ROM 中 的 代码 或 者 字形 
库 ， 比 如 通过 某 些 Int 调 用 开启 ROM 的 写 权限 ， 然 后 
利用 程序 直接 向 ROM 被 映射 的 地 址 空间 写 入 对 应 的 新 
数据 ， 这 样 就 完成 了 升级 。 

EGA 显 卡 将 Frame Buffer 整 体 映 射 到 从 系统 全 局 
地 址 A0000h 处 开始 的 128KB， 同 时 为 了 兼容 之 前 的 
MDA/CGA 显 卡 ， 会 将 一 部 分 专门 用 于 存储 CGA 像 素 
值 和 MDA 字 符 ASCII 码 和 属性 值 的 显存 分 别 映射 到 
B0000h 和 B8000h 处 ， 各 自 有 32KB。 使 用 CGA 和 MDA 
的 老 程序 依然 可 以 写 入 这 些 显存 位 置 实现 图 形 、 文 字 
显示 。 

EGA 显 卡 是 第 一 个 引入 Video BIOS ROM 的 显 
卡 。 后 续 的 显卡 ， 乃 至 当代 最 先进 的 显卡 ， 为 了 兼容 
主板 BIOS 在 系统 启动 时 的 行为 和 显示 字符 /图 形 的 方 
式 ， 也 都 包含 Video BIOS ROM， 也 都 继续 提供 Int 10h 
的 中 断 服务 程序 ， 当 然 ， 也 继续 提供 兼容 CGA、EGA 
等 显卡 的 显存 映射 位 置 ， 以 及 继续 兼容 (也 就 是 可 以 
解析 ) 程序 写 入 的 字符 ASCII 码 和 属性 信息 。 具 体 情 
况 可 以 参考 8.2.4 节 。 
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8.2.3.4 Video Graphics Array (VGA) 


VGA 显 卡 是 IBM 在 1987 年 推出 的 ， 用 于 其 PS/2 电 
脑 上 。 由 于 当时 的 集成 电路 工艺 已 经 可 以 将 显卡 所 
需 的 主要 电路 模块 集成 到 一 颗 芯 片上 ， 所 以 当时 其 
形态 并 非 是 一 张 独立 显卡 ， 而 是 被 集成 到 了 电脑 的 
主板 上 ， 如 图 8-100 所 示 。 之 所 以 被 称 为 “Array”， 
是 因为 其 芯片 内 集成 度 很 高 ， 各 个 模块 在 其 内 部 排 
布 成 了 阵列 。 如 图 8-100 左 侧 所 示 ， 只 需要 晶振 、 
RAMDAC、 显 存 以 及 主 芯 片 ， 便 可 组 成 一 张 板 载 显 
卡 了 。VGA 显 卡 第 一 次 采用 了 DE-9 的 升级 版 DE-15 针 
接口 来 传送 数据 ， 如 图 8-100 所 示 。 

该 VGA 显 卡 板 载 256KB 显 存 ， 最 高 可 以 到 
800X600 分 辩 率 ，640X480@16 色 ， 最 低 可 以 支持 
320X200@256 色 。 调 色 板 色 库 支持 262144 种 颜色 〈 共 
18 位 ， 每 个 RIG/B 分 量 占 6 位 ， 各 自 允 许 2=64 个 色 阶 ， 
整体 组 成 所 谓 26 万 色色 谱 ) 。CGA 只 支持 固定 的 16 种 
色谱 ， 而 EGA 支 持 64 种 色谱 但 是 依然 只 支持 同时 显示 
16 色 ， 只 不 过 可 以 改变 调 色 板 中 的 每 个 条 目的 颜色 。 
而 VGA 则 可 以 同时 从 26 万 色色 谱 中 同时 显示 256 色 ， 而 
且 色 谱 中 的 每 个 颜色 也 可 以 被 灵活 配置 。 即 便 如 此 ， 它 
的 规格 依然 赶不上 IBM 早 于 它 4 年 推出 的 PGC 的 规格 。 

该 VGA 显 卡 支持 的 分 辩 率 比较 灵活 ， 包 括 : 512 
到 800 列 像素 (比如 640、704、720、736、768 等 ) @16 
色 ， 或 者 256 到 400 列 像素 〈 比 如 320、360、480 等 ) 
@256 色 。 对 应 的 ，200 或 350 一 直到 410 行 像素 @70 Hz 
刷新 率 ， 或 者 224 到 256 或 者 448 到 512 行 像素 @60 Hz 刷 
新 率 。512 到 600 行 像素 时 刷新 率 会 降低 到 50 Hz。 

VGA 显 卡 依然 支持 文本 模式 ， 支 持 80X25@16 色 
@9X16 点 阵 ， 以 及 80X50@16 色 @8X8 点 阵 模式 ， 最 
高 可 以 支持 到 100X 80 字 符 。 

VGA 显 卡 兼容 MDA、CGA、EGA 的 显示 模式 ， 
会 向 对 应 的 全 局 地 址 空间 中 暴露 对 应 的 显存 ， 并 可 
以 接收 之 前 格式 的 字符 ASCI 码 和 属性 值 并 解析 和 显 
示 ， 以 及 提供 对 应 的 Video BIOS ROM 支 持 。 

VGA 显 卡 将 它 的 显存 映射 在 了 系统 全 局 地 址 
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图 8-100 板 载 VGA 显 卡 芯片 
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的 0xA0000 到 0xBFFFF 这 128KB 区 段 中 。 其 中 ， 从 
0xA0000 开 始 的 64KB 区 段 属于 Frame Buffer， 是 为 
VGA 模 式 自己 的 图 形 模式 设置 的 ， 同 时 利用 这 段 区 
域 兼容 EGA 显 卡 的 图 形 显示 模式 ， 从 0xB0000 开 始 的 
32KB 是 为 了 兼容 MDA 的 文字 显示 模式 而 设置 的 ， 从 
0xB8000 开 始 的 32KB 是 为 了 VGA 自 身 的 文本 模式 以 及 
兼容 CGA 图 形 模式 而 设置 的 。 

VGA 在 当时 得 到 了 非常 广泛 应 用 和 响应 ，20 世 
纪 90 年 代 末 的 电脑 都 普遍 配备 了 了 VGA 显卡 和 气 对 应 的 
DE-15 针 接口 。DE-15 针 接口 依然 被 沿用 到 今天 ， 所 
以 人 们 习惯 将 一 切 使 用 DE-15 针 的 显示 器 都 称 为 YGA 
显示 器 、VGA 接 口 。 其 实 ，VGA 之 后 还 经 历 过 多 代 
演变 ， 而 它们 的 名 字 并 不 叫 VGA， 但 依然 使 用 DE-15 
帧 接口 。 直 到 2015 年 后 的 几 年 内 ，HDMI 等 数字 接口 
普遍 替换 掉 了 VGA 接 口 。 

VGA 显 卡 时 代 ， 有 大 量 的 品牌 和 厂商 生产 了 各 
种 规格 的 显卡 。 包 括 : ATI СЕЖАМРЖИМ) . 53 
Graphics、 Matrox、Plantronics、Paradise Systems、 
Tseng Labs, Cirrus Logic、 Trident Microsystems、 
HT. NEC. Chips and Technologies、SiS〔 砂 统 科 技 ， 
冬瓜 哥 第 一 台电 脑 上 所 用 的 显卡 就 是 SiS300 型 ， 还 
是 一 块 3D 图 形 加 速 卡 ) 、Tamerack、Realtek、Oak 
Technology、 LSI、Hualon、Cornerstone Imaging、 
Winbond、 AMD、Western Digital、Intergraph、Texas 
Instruments、Gemini、Genoa 等 。 而 如 今 ， 显 卡 市 场 
只 剩 下 了 区 区 三 家 : NVidia、AMD 和 Intel。 


8.2.3.5 VGA 的 后 续 


在 VGA 之 后 ， 各 种 更 高 分 辨 率 的 显示 器 、 显 卡 
被 不 断 推出 ， 由 于 分 辨 率 各 式 各 样 ， 人 们 为 每 一 种 规 
格 起 了 对 应 的 名 字 。 如 图 8-101 所 示 为 屏幕 分 辩 率 、 
尺寸 比例 以 及 对 应 名 称 示意 图 。 这 些 名 字 中 的 W 表 示 
Wide，S 表 示 Super，X 表 示 Extended，Q 表 示 Quad， 
HD 表示 High Density，U 表 示 Ultra。 总 之 它们 都 是 形 
容 词 ， 分 辩 率 越 来 越 高 。 

DE-15 针 接口 最 高 可 以 支持 到 4k 分 辩 率 @60 Hz 刷 
新 率 ， 不 过 目前 的 主流 4k 显 示 器 几乎 都 去 掉 了 DE-15 
接口 而 转 为 采用 HDMI、DP 等 数字 传输 接口 了 。 纵 使 
DE-15 可 以 传送 xxGA 显 示 模 式 ， 但 是 人 们 依然 习惯 称 
之 为 VGA。 


8.2.3.6 ”当代 显卡 的 图 形 和 文字 模式 


当代 独立 显卡 动 轰 具 有 数 GB 甚 至 十 几 GB 的 显存 
容量 ， 当 然 ， 这 并 不 表示 其 能 够 在 天 幕 上 显示 宇宙 级 
分 辩 率 的 图 像 。 这 些 显存 几乎 都 被 用 来 存放 一 些 待 运 
算 的 数据 ， 因 为 当代 的 显卡 都 支持 3D 加 速 计算 功能 ， 
Host 端 的 程序 只 需要 使 用 比较 简单 的 接口 告诉 显卡 需 
要 算 的 东西 ， 然 后 显卡 计算 并 输出 像素 的 颜色 值 。 截 
至 目前 ，4k 分 辩 率 的 显示 器 逐渐 普及 ， 但 是 其 像素 
值 也 只 不 过 占用 数 十 MB 的 Frame Buffer 容 量 而 已 。 所 


以 ， 当 代 的 3D 图 形 加 速 显 卡 可 以 看 做 一 台 专 门 计算 图 
像 像素 值 的 计算 机 + 一 块 xxVGA 显 示 规格 的 或 者 xxHD 
显示 规格 的 显卡 ， 但 是 它 俩 被 集成 进 了 一 个 单一 芯 
片 中 。 

当代 的 显卡 如 此 强悍 ， 但 是 它们 依然 要 支持 古 
老 的 文字 模式 和 图 形 模式 ， 比 如 兼容 CGA/EGA/VGA 
时 代 的 操作 方式 。 现 在 请 打开 你 的 电脑 看 一 看 ， 如 
图 8-101 所 示 为 冬瓜 哥 电 脑 上 的 Intel 集 成 显卡 的 显存 
映射 情况 示意 图 。 如 图 8-102 左 侧 所 示 ， 其 的 确 在 
0xA0000 一 0xBFFFF 之 间 映 射 了 VGA 规 定 的 128KB 显 
存 。 程 序 可 以 采用 与 CGA/MDA/VGA 相 同 的 直 写 显存 
以 及 Video BIOS 方 式 来 显示 图 像 和 文字 。 

至 于 当代 的 显卡 依然 是 将 字形 库 放 在 ROM 中 同时 
配备 一 个 字形 生成 控制 电路 模块 ， 还 是 通过 其 内 部 的 
幅 入 式 CPU 核 心 通过 运行 固件 代码 加 载 软 字形 库 然后 
从 中 提取 像素 ， 不 得 而 知 。 不 管 通过 什么 方式 ， 提 取 
出 来 的 字形 像素 也 都 是 被 统一 输出 到 一 个 专门 用 于 存 
放 像 素 点 值 的 Frame Buffer (原始 意义 上 的 显存 )， 
然后 通过 RAMDAC 输 出 到 显示 器 。 

再 来 看 图 8-102 右 侧 所 示 ， 该 显卡 同时 还 额外 映射 
了 一 个 大 概 268MB 大 小 的 区 段 和 一 个 大 概 16MB 大 小 的 
区 段 。 这 些 空间 内 都 存放 了 什么 东西 呢 ? 16MB 大 小 这 
块 区 域 很 有 可 能 对 应 着 显卡 内 部 的 各 种 控制 寄存 器 ， 以 
及 一 些 缓冲 区 。 这 些 寄存 器 的 配置 方法 ， 以 及 缓冲 区 的 
使 用 方法 ， 只 有 该 显卡 及 其 驱动 程序 的 开发 者 才 知道 。 

268MB 左 右 的 那 块 区 间 ， 其 实 就 是 该 显卡 的 
Frame Buffer 直 接 被 映射 进来 的 ， 其 作用 是 让 程序 可 
以 直接 写 入 这 块 空间 从 而 直接 显示 对 应 的 像素 。 由 于 
CGA/EGA/VGA 模 式 下 的 分 辨 率 很 低 ， 目 前 显卡 已 经 
可 以 支持 8 K 分 辨 率 ， 所 以 要 在 这 种 高 分 辨 率 模式 下 
直接 写 屏 幕 像素 值 的 话 ， 那 就 得 把 Frame Buffer 部 分 
映射 到 全 局 地 址 空间 。 上 文中 说 过 ，4k 分 辩 率 也 不 过 
需要 几 十 MB 的 Frame Buffer， 至 于 为 何 要 映射 268MB 
左右 ， 冬 瓜 哥 并 不 了 解 ， 不 过 猜测 很 有 可 能 其 Frame 
Buffer 空 间 弄 成 了 多 个 Page， 用 于 分 屏 显示 或 者 轮流 
扫描 (上 文中 介绍 过 ) 。 

但 是 ， 在 现代 操作 系统 下 面 ， 用 户 程序 运行 在 保 
护 模 式 ，CPU 使 用 虚拟 地 址 访 存 ， 无 法 直接 访问 Frame 
Buffer。 为 此 ，Linux 操 作 系 统 将 显卡 映射 的 这 段 Frame 
Buffer 地 址 区 段 虚拟 成 了 一 个 设备 ， 叫 作 /dev/fp， 用 
户 程序 可 以 像 访 问 文件 一 样 来 读 写 这 个 设备 ， 当 然 ， 
用 户 程序 应 该 向 其 写 入 像素 点 色 值 数据 。 该 虚拟 设备 
的 驱动 程序 负责 将 用 户 程序 写 入 的 数值 写 入 到 显卡 的 
Frame Buffer， 从 而 实现 多 用 户 线程 可 以 共同 显示 图 
像 。 这 个 过 程 就 像 ALSA 框 架 中 的 /dev/pcemC0D0 设 备 一 
样 ， 只 不 过 后 者 是 流 式 访问 ， 前 者 是 随机 访问 。 


8.2.4 ”2D 图 形 及 其 泻 染 流程 
如 果 将 时 间 放 慢 ， 你 会 看 到 显示 器 上 的 像素 其 实 
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图 8-102 ”当代 显卡 的 显存 映射 区 段 


是 一 个 接着 一 个 被 刷新 出 来 的 。 我 们 平时 已 经 习惯 了 
屏幕 上 的 连贯 流畅 的 图 像 显示 ， 那 是 因为 显卡 以 非常 
快 的 速度 重复 播放 着 每 个 像素 点 ， 这 个 速度 超过 了 人 
眼 对 前 后 时 序 的 辨识 能 力 ， 所 以 才 会 有 流畅 的 感觉 。 
人 们 将 显卡 根据 Host 端 给 出 的 指示 《比如 文字 ASCII 
码 和 属性 ) 生成 像素 的 过 程 称 为 渲染 。 将 文字 信息 
翻译 成 像素 ， 属 于 文字 演 染 。 而 对 于 图 形 泻 染 ， 前 
文中 所 述 的 显卡 完全 依靠 Host 端 给 出 的 像素 值 来 播 
放 到 屏幕 上 ， 可 以 说 ， 图 形 泻 染 过 程 是 Host 端 的 程 
序 完成 的 ， 而 不 是 显卡 完成 的 。 所 以 ， 前 文中 的 显卡 
只 提供 了 文字 显示 加 速 功能 ， 而 并 没有 提供 图 形 加 速 
功能 。 

试想 一 下 ， 如 果 能 够 让 Host 端 的 程序 只 告诉 显卡 
“ 帮 我 画 个 岛 ”， 显 卡 就 自动 在 屏幕 上 输出 一 个 鸟 
形 ， 这 就 算 图 形 加 速 了 。Host 端 程序 向 显存 中 约定 的 
位 置 写 入 对 应 的 命令 操作 码 ， 比 如 画 鸟 为 00， 画 山 为 
01， 画 地 球 为 02 等 ， 以 及 写 入 对 应 的 参数 ， 比 如 鸟 的 
类 型 、 颜 色 等 。 这 看 着 怎么 像 是 在 做 梦 ? 的 确 是 。 图 
形 有 无 数 种 ， 显 卡 不 可 能 全 都 实现 ， 至 少 目前 不 可 
能 。 所 以 ， 更 加 现实 的 方式 是 ， 让 显卡 完成 一 些 基本 
线条 、 形 状 的 作 图 过 程 ， 比 如 线段 СНА, ЊЕ), 
多 边 形 、 圆 等 ，Host 端 可 以 重复 地 让 显卡 在 对 应 位 置 
画 出 这 些 形状 ， 这 些 形状 组 合 起 来 之 后 ， 再 加 上 对 一 
些 空白 处 的 颜色 填充 ， 就 可 以 形成 任意 图 样 。 这 就 是 
2D 图 形 加 速 泻 染 的 基本 过 程 ， 其 本 质 上 与 声卡 在 波 表 
中 将 每 种 乐器 每 种 音符 的 采样 值 保存 下 来 ， 然 后 拼接 
成 音乐 的 做 法 是 类 似 的 。 
当然 ， 手 工 画 出 来 的 图 ， 终 究 不 如 现实 中 的 图 
扩 精 细 和 自然 。 要 得 到 最 自然 的 图 ， 那 必须 用 数码 相 
机 直接 从 现实 中 取景 ， 取 到 的 直接 是 被 大 自然 勾勒 好 
的 像素 值 。 然 而 人 们 总 是 想 勾 勒 出 理想 中 的 画面 ， 而 
这 些 是 大 自然 无 法 生成 的 。 这 就 像 利用 波 表 合成 的 人 
工 乐 曲 与 通过 自然 录音 生成 的 乐曲 在 听觉 上 的 差异 一 
样 。 计 算 机 的 声音 和 图 像 处 理 ， 似 乎 本 质 类 似 ， 连 路 
数 也 是 差不多 的 。 

很 显然 ， 要 实现 加 速 泻 染 ， 就 必须 在 显卡 内 部 实 
现 一 套 能 够 解析 Host 传 递 过 来 的 画图 命令 和 参数 并 生 
成 对 应 像素 的 逻辑 。 这 套 逻 辑 如 果 用 纯 数字 电路 实现 


的 话 ， 完 全 可 以 ， 但 是 却 失去 了 灵活 性 ， 比 如 想 增加 
新 指令 ， 想 让 显卡 画 新 的 元 素 ， 之 前 的 数字 逻辑 就 无 
法 满足 。 最 灵活 的 方式 无 外 乎 利用 可 编程 的 方式 ， 也 
就 是 用 CPU+ 代 码 的 方式 。 这 意味 着 ， 在 显卡 中 要 放 
置 一 个 CPU 来 接收 指令 和 参数 并 直接 向 Frame Buffer 
中 输出 画 好 的 像素 值 ， 不 再 需要 Host 端 通过 ISA/PCI/ 
PCIE 等 总 线 直接 写 入 像素 值 。 如 果 一 个 CPU 无 法 满足 
画图 时 的 运算 要 求 ， 那 就 放置 多 个 CPU， 当 代 显 卡 中 
包含 有 数 千 个 小 型 CPU， 正 因 如 此 ， 才 能 计算 出 本 节 
开头 所 示 的 绚丽 的 3D 图 像 效果 。 

1982 年 ，NEC 公 司 推出 了 hPD7220 显 示 控 制 芯 
片 ， 如 图 8-103 所 示 。 其 不 仅 支 持 传统 的 图 形 模式 和 
文字 模式 显示 ， 还 支持 2D 图 形 加 速 ， 画 图 速度 可 达 
800 ns 每 像素 。 但是， 其 太 过 高 端 ， 不 接地 气 。 依 然 
还 是 以 当时 流行 的 BM 兼容 机 PC 上 出 现 的 显卡 为 蓝本 
来 介绍 。 


图 8-103 МЕС NhPD7220 显 示 控 制 器 芯片 


8.2.4.1 2D 图 形 加 速 卡 PGC 


1984 年 ，IBM 推 出 了 一 块 面向 CAD (Computer 
Assisted Design) 场景 的 专业 显卡 Professional Graphics 
Controller (PGC) 。 说 它 专 业 ， 是 因为 它 能 够 协助 程 
序 来 加 速 图 形 绘制 过 程 ， 具 备 这 种 功能 的 图 形 卡 称 为 
图 形 加 速 卡 ， 同 时 ， 也 因为 它 能 够 以 超出 当时 主流 的 
标准 提供 更 加 精细 的 分 辨 率 和 颜色 数量 。 

PGC 最 高 支持 60 Hz 刷新 率 下 以 640 X480 分 辨 率 
和 256 色 显示 。 其 总 共 可 支持 4096 种 色彩 ， 通 过 选择 
不 同调 色 板 配置 来 支持 多 种 不 同 搭配 组 合 的 256 色 。 

板 载 存储 器 容量 320KB (300KB 用 做 Frame 


Buffer，20KB 留 做 它 用 ) 。 集 成 有 一 片 运行 在 8 MHz 
频率 下 的 Intel 8088 CPU， 并 附 以 8KB 的 微 码 RAM。 
也 就 是 利用 该 CPU 运 行 微 码 ， 实 现 一 些 原本 需要 由 
Host 端 CPU 来 完成 的 计算 ，Host 端 程序 只 需要 告诉 这 
个 CPU“ 要 怎么 画图 ， 数 据 位 于 Host RAM 的 什么 地 
方 ” 即 可 ， 不 再 需要 向 显卡 传送 像素 值 了 。 当 然 ， 其 
兼容 CGA 模 式 ， 也 就 是 说 ， 其 依然 会 将 额外 的 32KB 
的 Frame Buffer 以 及 显存 映射 到 0xB8000 一 0xBFFFF 
处 ， 提 供 传统 的 Host 端 直 写 像素 模式 ， 但 是 此 时 分 辩 
率 最 高 只 能 到 320X200 了 。 

如 图 8-104 所 示 ，PGC 显 卡 由 3 块 子 卡 组 成 ， 母 板 
上 含有 Intel 8088 CPU 运行 固件 程序 、 存 储 固件 程序 
的 ROM 以 及 显示 器 接口 部 分 ; 其 中 一 张 子 卡 上 含有 
CGA 型 显卡 所 需 的 各 个 部 件 比如 字形 库 ROM 等 ; Я 
一 张 子 卡 上 含有 大 量 的 RAM 芯 片 作为 显存 。 由 于 其 厚 
度 变 厚 ， 其 会 占用 两 个 主板 上 的 插 槽 。 

如 图 8-105 所 示 为 PGC 架 构图 。 其 中 System Bus 
Interface 负 责 与 Host 端 的 主 CPU 打 交道 ， 传 递 数据 
(CCGA 兼 容 模式 下 传递 像素 或 者 文本 信息 ; 加 速 泻 
染 模式 下 传递 泻 染 命令 及 参数 ) ; Micro Processor 模 
块 负责 全 局 总 控 并 解析 及 执行 演 染 命令 生成 像素 ; 
Emulator 模 块 负责 模拟 CGA 卡 (其 基本 上 就 是 一 块 集 
成 的 CGA 显 卡 模块 ); Video Control Generator 模 块 负 
责 控制 与 现实 有 关 的 各 种 同步 信号 和 时 序 等 ，Display 
Memory 为 显存 和 Frame Buffer, Look-Up Table 以 及 
Video Output 模 块 负责 调 色 板 配 色 以 及 最 终 的 DAC 输 
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出 (其 本 质 上 就 是 RAMDAC 模 块 )。 

演 染 命令 与 我 们 在 第 7 章 中 介绍 的 SCSI 命 令 有 什 
么 本 质 区 别 么 ? 从 最 本 质 上 它们 其 实 没 有 区 别 ， 硬 盘 
解析 SCSI 指 令 ， 然 后 操纵 着 磁头 臂 摆 动 读 写 数据 ; 
支持 图 形 加 速 泻 染 的 显卡 解析 泻 染 指令 然后 生成 对 
应 像素 值 写 入 Frame Buffer 对 应 位 置 。 它 们 的 套路 是 
一 致 的 。 那 么 ， 必 然 地 ， 演 染 命令 和 参数 从 主机 端 传 
递 给 显卡 的 过 程 也 是 基本 一 致 的 ， 那 就 是 ， 利 用 循 
环 队列 、 指 针 寄存 器 等 来 实现 ， 详 见 本 书 第 7 章 相关 
内 容 。 

如 图 8-106 和 图 8-107 所 示 为 PGC 显 卡 的 泻 染 命令 


=a, 
如 图 8-108 所 示 为 采用 这 些 指 令 编写 的 程序 来 实 
现 对 应 的 绘图 过 程 的 样 例 程序 。 

如 图 8-109 所 示 为 System Bus Interface 模 块 中 的 
2KB 内 存 中 所 存放 的 各 种 配置 参数 ， 这 2KB 内 存 会 被 
映射 到 Host 端 全 局 地 址 空间 中 ，Host 程 序 〈 比 如 显卡 
驱动 ) 通过 写 入 该 空间 内 对 应 偏 移 量 的 对 应 值 ， 即 
可 控制 显卡 的 各 种 运行 参数 。 这 2KB 空 间 相 当 于 承载 
了 显卡 的 外 部 控制 寄存 器 ， 但 是 物理 上 其 并 不 是 寄 
存 器 ， 而 是 SRAM， 甚 至 DRAM。 这 些 DRAM 外 围 附 
带 有 一 个 中 断 触发 电路 ， 依 然 检测 到 写 入 了 其 中 某 
个 地 址 ， 则 会 触发 一 个 中 断 信号 给 PGC 显 卡 的 Micro 
Processor (Intel 8088 CPU) ， 从 而 运行 中 断 服务 程 
序 ， 然 后 改变 显卡 的 各 种 运行 模式 〈 通 过 配置 显卡 内 
部 模块 的 私有 寄存 器 值 实现 ， 这 些 私 有 寄存 器 并 没有 
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图 8-104 IBM PGC 卡 的 实物 图 
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被 映射 到 Host 端 地 址 空间 ， 只 映射 到 了 Micro Processor 
自己 的 地 址 空间 ， 而 这 2KB 的 空间 同时 被 映射 在 了 
Host 端 CPU 和 显卡 内 的 Micro Processor CPU 的 地 址 空 
间 中 ， 两 者 使 用 共享 内 存 的 方式 进行 信息 交互 ) 。 

该 2KB 的 配置 空间 被 映射 在 Host 端 的 0xC6000 
处 。 其 内 部 的 各 个 参数 如 图 8-109 所 示 。 可 以 明确 看 
到 ， 开 始 几 处 存放 的 就 是 用 于 与 Host 端 交互 数据 的 循 
环 队列 的 对 应 信息 ， 包 括 队列 基地 址 、 各 个 追踪 指针 
地 址 等 。 

那么 ， 这 些 泻 染 指令 是 如 何 让 Host 端 的 画图 程 
序 调用 的 呢 ? 程序 可 以 直接 按照 显卡 的 要 求 将 对 应 
命令 封装 到 一 个 固定 格式 的 数据 包 中 ， 然 后 写 入 对 
应 的 队列 ， 然 后 查询 对 应 的 完成 状态 。 这 样 做 对 应 
用 程序 员 来 讲 是 一 笔 很 重 的 学 习 负 担 。 正 如 我 们 前 
文中 介绍 过 的 计算 机 IO 的 通用 路 数 一 样 ， 显 卡 厂 商 
可 以 封装 出 一 套 API 来 供 上 层 程序 调用 ， 比 如 画 圆 函 
数 draw_circle〈 圆 心 坐 标 ) ， 程 序 调 用 该 函数 即 可 
画 圆 。 该 函数 底层 生成 对 应 的 泻 染 命令 ， 比 如 对 于 
IBM PGC 显 卡 来 讲 ， 会 生成 这 样 两 条 命令 : MOVE 
50,80; CIRCLE 100。 其 含义 是 将 当前 坐标 点 移动 到 
横 坐 标 50 和 纵 坐 标 80 处 ， 然 后 以 此 为 圆心 ， 以 100 为 
半径 ， 画 一 个 圆 。 当 然 ， 我 们 前 文中 说 过 ， 将 数据 指 
针 压 入 队列 、 更 新 外 部 IO 控制 器 的 指针 寄存 器 、 接 
收 IO 完 成 消息 等 步骤 ， 应 该 是 由 该 IO 设备 的 LLDD 
驱动 程序 来 完成 ， 所 以 ， 该 函数 底层 其 实 会 调用 由 显 
卡 的 LLDD 了 驱动 暴露 的 底层 入 队 函 数 比 如 假想 名 称 : 
queuecommand()， 剩 下 的 交 给 底层 驱动 来 做 即 可 。 

然而 ， 如 果 不 同 厂商 的 显卡 提供 不 同 的 绘图 函 
数 ， 比 如 同样 是 画 圆 ， 你 叫 draw_circle0， 我 叫 circle __ 
draw(0， 他 叫 circle0， 还 有 人 叫 huayuan0， 这 样 ， 绘 
图 程序 就 要 为 不 同 显卡 调用 不 同 函数 ， 开 发 成 本 太 


高 。 为 此 ， 可 以 再 封装 一 层 统一 函数 库 ， 统 一 名 称 ， 
然后 各 厂商 的 显卡 驱动 自行 将 自己 的 对 应 函数 挂 接 到 
一 个 登记 表 中 ， 然 后 根据 用 户 程序 所 选择 的 绘图 显卡 
来 决定 调用 哪个 底层 Handler 函 数 。 另 外 ， 这 个 统一 封 
装 库 ， 还 可 以 利用 底层 显卡 的 基本 绘图 函数 ， 封 装 出 
更 高 层 的 绘图 功能 ， 供 用 户 程序 调用 。 对 于 一 些 显 卡 
无 法 或 者 尚未 提供 加 速 以 及 没有 安装 图 形 加 速 显 卡 的 
系统 ， 这 个 绘图 库 还 需要 提供 利用 Host CPU 进 行 计算 
的 对 应 功能 代码 ， 也 就 是 软 实现 。 

所 以 ， 利 用 显卡 图 形 加 速 绘图 的 整个 路 径 上 ， 
基本 上 会 有 这 几 个 角色 : 负责 决定 画 什么 图 的 用 户 程 
序 、 负 责 封 装 更 高 层 的 绘图 函数 供用 户 调用 而 其 自身 
再 调用 显卡 注册 的 各 种 基本 绘图 函数 的 图 形 库 、 将 图 
形 库 下 发 的 绘图 请 求 封装 成 只 有 显卡 才能 够 识别 的 指 
令 包 的 显卡 厂商 提供 的 基本 绘图 函数 、 负 责 将 指令 包 
传递 给 显卡 的 显卡 底层 驱动 程序 。 可 以 看 到 这 一 系 
列 过 程 ， 与 第 7 章 中 介绍 的 针对 存储 、 网 络 等 系统 的 
Host 端 协议 栈 以 及 LO 流程 基本 类 似 。 

PGC 卡 由 于 太 过 高 端 ， 而 且 编 程 接口 产生 了 
变化 ， 因 为 并 不 需要 由 程序 直接 将 像素 写 入 Frame 
Buffer， 而 是 程序 要 先 将 画图 命令 、 数 据 发 送 到 
显卡 上 显存 ， 然 后 由 Intel 8088 CPU 进 行 分 析 和 计 
Я, 后 者 帮忙 生成 像素 并 写 入 Frame Buffer， 所 以 
当时 只 有 少数 应 用 支持 该 显卡 ， 比 如 IBM Graphical 
Kernel System, P-CAD 4.5, Canyon State Systems 


CompuShow 以 及 AutoCAD 2.5。IBM 的 PGC 可 以 算 做 
了 PC 兼容 机 历史 上 第 一 块 2D 图 形 加 速 卡 ， 同 时 其 也 带 
有 一 部 分 3D 加 速 功能 。 不 过 ， 由 于 其 太 高 端 ， 没 多 久 
就 停产 了 。 但 是 图 形 加 速 卡 这 个 概念 ， 却 给 早期 计算 
机 图 形 产业 开创 了 一 个 全 新 的 领域 ， 一 直到 今天 ， 
形 加 速 卡 依然 在 市 场 上 叱 喧 风 云 。 
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图 8-105 PGC 显 卡 的 内 部 架构 图 
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1987 年 IBM 又 推出 了 8514 显 卡 ， 其 定义 了 一 个 
新 分 辩 率 和 刷新 率 : 1024X768@43.5Hz 刷 新 率 。 其 
也 支持 2D 加 速 ， 主 要 用 于 PS/2 电 脑 上 。 相 比 PGC， 
8514 更 广为人知 ， 但 是 依然 销量 不 佳 ， 因 为 其 43.5 Hz 
的 刷新 率 纵使 是 对 那个 年 代 的 人 来 讲 ， 也 会 让 人 抓 
狂 。 但 是 IBM 8514 却 被 人 们 普遍 认为 是 PC 领域 的 第 
一 块 消费 级 图 形 加 速 卡 。 后 来 的 8514 显 卡 多 基于 Texas 
Instruments 〈 德 州 仪器 ) 公司 的 TMS34010 芯 片 构 
建 。 如 图 8-110 所 示 ， 右 侧 为 利用 该 芯片 演 染 出 的 图 像 
质量 示意 图 〈 请 不 要 府 异 那 时 候 就 能 画 出 如 此 精细 复 


下 面 一 段 程序 创建 了 全 黑色 背景 上 的 一 条 白色 直线 : 


LuT 5.0,0,0 查找 表 第 5 项 为 黑色 

LoT 6. Z'F', Z'F', Е 查找 表 第 6 项 为 白色 
WMode replace 

AreaFill true 打开 FILL 标 志 

Pattem 32Z'FF 32 个 全 1 的 字 节 ， 实 心 图 案 
Mask Z'FF' 使 能 够 写 人 到 所 有 平面 
Pixel Value 5 使 用 像素 值 5 进 行 扫 撒 转换 
Move 0,0 

Rect 1023. 767 MRE P RURAR E 
Pixel Value 6 使 用 像素 值 6 进行 扫描 转换 
Move 100. 100 

LineR 500, 400 виа 
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杂 的 图 。 其 实 ， 目 前 没有 任何 游戏 是 真 的 往 屏 幕 上 一 
点 点 画 点 、 线 、 面 而 生成 图 像 的 ， 多 数 时 候 都 是 直接 
将 一 张 照片 背景 复制 到 Frame Buffer 中 对 应 位 置 ， 接 
下 来 你 就 知道 了 ) 。 

TI 的 TMS340xx 系 列 芯片 为 一 款 集成 了 图 形 处 理 
指令 的 32 位 CPU， 于 1986 年 推出 。 不 同 之 处 在 于 ， 其 
绘图 指令 是 直接 被 硬件 化 的 CPU 指令 ， 而 不 是 靠 队列 
传递 以 及 解析 的 高 层 命令 数据 包 。 如 图 8-111 所 示 为 
TMS34020 芯 片 实物 图 以 及 TMS34080 芯 片 内 部 电路 
照片 。 其 运行 频率 50 MHz 左 右 ， 为 一 款 RISC 架 构 处 


下 一 段 程序 创建 黑色 背景 上 与 蓝 色 三 角形 交 磷 的 红色 图 : 


LT 5.0.0.0 查找 表 第 5 项 为 黑色 

шт 7, Z'F', 0,0 查找 表 第 7 项 为 红色 

шт 8,0,0,2Р 查找 表 第 8 项 为 蓝 色 

WMode replace 

ArcaFill ТЕР 打开 

Pattern 32Z'FF' 32 个 全 1 的 字 节 ， 实 心 图 案 
Mask ТЕР 使 能 名 号 到 所 有 平面 
Pixelvaluc 5 занае 

Move 0,0 

Rect 1023, 767 现在 师 组 存 中 可 视 部 分 为 基色 
PixelValue з ГАТ ЕЕ 
Polygon 3, A(200, 200, 800, 200, 500, 700) 

PixelValue 7 енин яю Е 
Мое 511, 383 把 CP 移动 到 显示 器 的 中 心 
Circle 100 СРОЧНО 


图 8-108 ”利用 显卡 内 的 图 形 加速 器 指令 来 绘图 


C6000-C60FF: Host-to-PGC ring buffer. 
C6100-C61FF: PGC-to-host results ring buffer. 
C6200-C62FF: PGC-to-host errors ring buffer. 


C6300-C63FF: Other data, including: 
©6300: — Write pointer in buffer at C6000. 
C6301: Read pointer in buffer at C6000. 
Write pointer in buffer at C6100. 
Read pointer in buffer at C6100. 
Write pointer in buffer at C6200. 
Read pointer in buffer at C6200. 


C6306: Cold start flag. 

C6307: Warm start flag. 

C6308: Set to nonzero to report errors 

C6309: Setat the same time аз the warm start flag; not changed thereafter. 


Not used by the PGC. 


The diagnostic utility loads itself into PGC RAM and uses this byte to store its result. 


Nonzero if CGA mode can be selected. 


C630C: Display request Set this to 1 (CGA mode) or 0 (normal mode) and the PGC will 
change to that mode and set the "Display acknowledge “ flag to the requested 
value. This is an alternative to sending DI commands to the PGC. 

6300; Display acknowledge. 

C630E: ССА framebuffer request. 

C630F: ССА framebuffer acknowledge. 


C6310-C6321: Register values - these get set if the PGC processor jumps to a breakpoint at 


OFFF:0008h. Registers are AX,BX,CX,DX,BPSI,DI,DS and ES. 


(6322: CGA vertical total 
(6323: ССА vertical displayed 
(6324: ССА vertical adjust 
C6325: ССА vertical syne 
C6326: Unused 


С6327-С6328: CGA cursor size 
C6329-C632A: CGA cursor address 
C632B-C632C: CGA screen start address 


C63D8: Last value written to port 03D8h 
C63D9: Last value written to port 03D9h. 
C63DB: _ “Presence test byte" 


C63E0-C63F3 Last values written to the emulated CGA CRTC. 
C63F8-C63F9 PGC firmware version. 


C63FB: ОАЅҺ if PGC processor has passed tests. 

C63FC: ОҒҒҺ if PGC ROM (low 32k) has failed; else 5Ah. 
С6ЗЕО:  OFFh if PGC ROM (high 32k) has failed; else 55h. 
C63FE: OFFh if PGC RAM has failed; else ААВ. 

C63FF: To reboot the PGC, write 50h into this byte, wait a bit 


(IBM's diagnostic program waits 2 system clock ticks) 

and then write ОАО. While at the 50h stage, the PGC's processor 
is in a tight loop; you can access the remainder of the 

transfer RAM without upsetting it (or it upsetting you). 


C6400-C67FF Reserved. The top part of this contains the PGC's stack; the rest 
contains PGC state. Whether this area appears in memory or not 
appears to be up to the discretion of the host PC; it showed up 
оп an XT, but not ап XT/286. 


图 8-109 PGC 显 卡 的 2KB 配 置 空间 中 的 各 配置 值 一 览 


图 8-110 基于 TITMS34010 芯 片 构建 的 8514 显 卡 


(57 __ 
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图 8-111 TMS34020 芯 片 实物 图 以 及 TMS34080 芯 片 内 部 电路 照片 


理 器 。 
所 谓 图 形 “加 速 ”， 其 实 是 将 原本 需要 由 Host 
CPU 计算 的 过 程 下 放 到 外 部 硬件 中 来 计算 ， 外 部 硬件 
不 是 神 ， 它 也 需要 按照 同样 的 算法 来 计算 ， 只 不 过 其 
具有 比 Host CPU 更 丰富 的 专用 硬件 资源 ， 比 如 数 千 个 
微型 核心 ， 这 些微 型 核心 不 需要 Host CPU 中 那些 额外 
的 执行 优化 过 程 比如 乱 序 重 排 、 分 支 预 测 等 逻辑 ， 但 
是 拥有 较 宽 的 寄存 器 位 宽 。 另 外 ， 外 部 显卡 中 的 计算 
资源 在 距离 上 更 接近 显存 ， 可 以 以 更 高 的 速度 访问 显 
存 ， 而 Host CPU 通过 层 层 总 线 才 将 算 好 的 数据 写 入 显 
存 。 通 过 这 些 处 理 方式 ， 绘 图 性 能 自然 被 加 速 。 

所 以 ， 我 们 探索 的 路 径 变 得 很 明显 ， 先 弄 清楚 
纵使 没有 外 部 图 形 加 速 显卡 ，Host CPU 是 怎么 生成 
图 形 的 ， 然 后 再 去 弄 清楚 外 部 设备 中 是 怎么 加 速 这 些 
计算 过 程 的 。 从 现在 开始 ， 除 非 提 及 ， 请 先 忘 掉 所 谓 
“图 形 加 速 ” 这 个 概念 ， 我 们 假设 一 切 都 是 靠 Host 端 
CPU+ 软 件 来 完成 的 ， 显 卡 只 是 简单 地 将 显存 中 的 像 
素 播 放 到 显示 器 。 

下 面 ， 就 邀请 大 家 跟着 冬瓜 哥 一 起 来 探索 一 下 2D 
图 形 演 染 的 基本 原理 。 


8.2.4.2 2D 图 形 模型 的 准备 


要 画 一 幅 静 态 的 2D 图 形 ， 就 需要 把 图 片 中 包含 的 
各 种 元 素描 述 出 来 ， 比 如 从 哪个 坐标 到 哪个 坐标 之 间 
是 一 条 直线 ， 线 形 〈 虚 线 、 实 线 等 ) 、 线 宽 、 颜 色 如 
何 ;以 哪个 坐标 为 圆心 半径 多 少 是 个 圆 ， 线 宽 多 少 ， 
线形 如 何 ， 填 充 什么 颜色 等 。 哪 几 个 坐标 点 组 成 了 多 
边 形 ， 线 宽 线 形 、 填 充 的 颜色 等 。 此 外 还 有 椭圆 、 二 
次 曲线 等 。 将 所 有 这 些 能 够 用 固定 公式 表示 的 曲线 在 
图 片 中 的 位 置 和 参数 记录 在 一 个 文件 中 。 编 写 一 个 程 
序 ， 分 析 这 个 文件 ， 然 后 按照 其 中 给 出 的 绘制 描述 ， 


调用 诸如 huaxian()、huayuan()、huatuoyuan() 等 函数 
将 对 应 曲线 绘制 出 来 。 这 些 函 数 直 接 根 据 绘 制 参 数 将 
绘制 好 的 像素 颜色 值 写 入 到 Frame Buffer 的 对 应 坐标 
上 ， 从 而 直接 在 显示 器 中 输出 对 应 的 图 形 。 当 然 ， 也 
可 以 调用 上 层 经 过 封装 的 统一 API 比 如 Directdraw、 
GDI 等 。 

还 记得 初中 时 学 习 过 的 平面 几何 么 ? 那 时 候 每 着 
考试 ， 最 后 一 道 大 题 恐 怕 脱 不 了 就 是 椭圆 + 三 角 函 数 
的 难题 。 还 记得 椭圆 的 Y 与 X 之 间 的 函数 关系 式 么 ? 
冬瓜 哥 反 正 是 已 经 忘 了 。 所 有 这 些 可 以 表达 成 固定 
公式 的 曲线 ， 都 可 以 封装 成 对 应 的 函数 。 那 些 不 规则 
图 形 怎么 处 理 ? 比如 一 些 无 规则 的 曲线 ， 可 以 用 无 限 
多 个 短 的 直线 段 来 模拟 ， 用 大 量 的 画 直线 函数 拼接 起 
来 ， 线 段 的 数量 取决 于 对 图 形 质量 的 要 求 。 不 过 ， 另 
一 种 质量 更 高 的 实现 方式 是 : 贝 塞 尔 曲线 。 

如 图 8-112 所 示 ， 从 左 到 右 、 从 上 到 下 一 步 步 观 
看 。 其 中 线段 的 比例 AD: АВ=ВЕ: BC=DF: DE. 
对 线段 AB 上 的 每 个 点 都 求 出 对 应 的 F 点 ，F 点 划 过 的 
曲线 ， 这 就 是 贝 塞 尔 曲 线 。 只 要 给 定 三 个 点 ， 就 可 以 
确定 唯一 的 一 条 贝 塞 尔 曲线 ，A/C 点 被 称 为 锚 点 ，B 
点 被 称 为 控制 点 。 显 然 ， 通 过 随意 控制 A/B/C 三 个 点 
的 坐标 ， 就 可 以 随意 控制 得 到 的 曲线 的 样子 。 这 就 是 
一 些 图 形 处 理 软件 比如 PhotoShop 等 选取 物体 边缘 时 
所 采用 的 技术 ， 通 过 调整 控制 点 来 实现 各 种 曲率 的 
曲线 。 

图 8-112 中 显示 的 是 二 次 贝 塞 尔 曲 线 ， 因 为 其 利用 
第 二 次 取 的 点 来 画 曲线 。 图 8-113 所 示 则 为 三 次 曲线 ， 
可 以 实现 更 高 的 曲率 。 通 过 组 合 多 个 曲线 的 线段 ， 可 
以 实现 任意 形状 曲线 。 其 如 果 在 3D 坐 标 系 下 ， 还 可 以 
生成 贝 塞 尔 曲面 。 

贝 塞 尔 曲 线 由 法 国 工程 师 贝 塞 尔 在 1962 年 前 后 
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图 8-112 ”二 阶 贝 塞 尔 曲线 


图 8-113 三 阶 贝 塞 尔 曲 线 和 贝 塞 尔 曲面 


系统 性 阐释 ， 所 以 以 其 名 字 命 名 。 贝 塞 尔 曲线 被 广泛 
应 用 在 计算 机 图 形 领域 。 利 用 对 应 的 贝 塞 尔 曲 线 公 
式 ， 带 入 给 出 的 三 个 点 坐标 ， 即 可 求 得 曲线 上 对 应 
点 的 坐标 。 二 阶 贝 塞 尔 曲线 的 计算 公式 为 : B (0 = 
(1-0 ?A+2t (1-0) B+RC， 其 中 为 连接 两 个 锚 点 线段 
上 的 相对 位 置 坐标 。 三 阶 贝 塞 尔 曲线 公式 为 : B (0 
= (1-t) 3A+3t (1-0) везе (1-0 C +BD。 除 了 贝 塞 
尔 曲线 ， 人 们 还 发 明了 多 种 其 他 方式 来 生成 不 规则 曲 
线 ， 大 家 可 以 自行 了 解 。 

对 于 有 限 数量 的 文字 ， 比 如 26 个 英文 字母 ， 还 
可 以 编写 对 应 的 函数 利用 规则 曲线 来 琶 加 出 对 应 的 字 
形 ， 比 如 封装 出 一 个 draw_char (中 心 坐 标 ， 待 显示 字 
符 ASCII 码 、 颜 色 、 字 体 ) 函数 。Windows 操 作 系统 
下 的 TrueType 字 体 字形 就 大 量 采 用 了 贝 塞 尔 曲线 来 描 
绘 。 或 者 封装 出 一 些 更 高 级 的 基本 形状 ， 比 如 各 种 表 
情 、 交 通 工 具 、 动 物 植物 等 。 当 然 ， 你 愿意 的 话 可 以 
继续 封装 出 “ 帮 有 我 画 个 鸟 ” 函 数 ， 但 是 这 样 就 本 末 倒 


置 了 ， 因 为 别人 可 能 并 不 喜欢 你 的 鸟 ， 你 也 可 能 不 喜 
欢 别 人 的 鸟 。 

那么 ， 单 赁 程序 员 脑子 的 想象 ， 来 定位 各 种 线 
段 、 曲 线 、 文 字 等 元 素 的 坐标 ， 这 也 是 不 现实 的 。 因 
为 程序 员 上 毕竟 只 是 程序 员 ， 不 是 画家 。 专 业 的 事情 还 
得 要 让 画师 来 做 。 但 是 画师 可 压根 不 管 什么 坐标 、 函 
数 。 画 师 是 笔墨 侠 ， 而 不 是 键盘 侠 。 即 便 某 个 程序 员 
同时 也 是 画家 ， 那 么 让 他 在 屏幕 上 不 同位 置 生成 一 万 
条 直线 段 来 模拟 一 个 不 规则 曲线 ， 在 代码 中 填写 这 么 
多 参数 ， 这 也 真是 难为 他 了 。 为 此 ， 人 们 发 明了 电子 
画笔 + 触摸 板 / 触 摸 屏 。 触 摸 板 / 屏 控制 器 直接 对 当前 的 
压力 点 的 坐标 和 力度 进行 高 频 采 样 ， 然 后 将 样 点 传输 
到 Host 端 ，Host 端 的 程序 将 这 些 样 点 直接 存储 到 文 
件 中 ， 即 可 记录 画师 作画 的 笔迹 和 压力 时 序 信息 。 
这 样 ， 作 图 程序 直接 根据 这 些 样 点 生成 对 应 的 直线 
段 ， 就 可 以 模拟 出 任何 曲线 ， 根 据 力 度 信息 ， 可 决 
定 线段 的 粗细 。 
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这 个 记录 了 一 幅 图 形 画作 中 各 个 元 素 信息 的 文 
件 ， 被 称 为 这 幅 图 像 的 模型 ， 生 成 这 个 模型 的 过 程 ， 
被 称 为 建 模 。 程 序 员 可 以 用 鼠标 或 者 电子 画笔 / 板 来 
进行 可 视 化 所 见 即 所 得 的 建 模 ， 也 可 以 进行 空想 来 建 
模 ， 直 接 向 模型 文件 中 写 入 对 应 坐标 等 信息 ， 当 然后 
者 需要 一 定 功力 。 图 形 程序 员 手中 总 是 积累 有 大 量 的 
模型 素材 ， 在 前 人 的 基础 上 修补 增 改 ， 形 成 自己 的 增 
强 版 素材 ， 有 些 情怀 的 图 形 设 计 者 也 会 从 头 设计 自己 
的 模型 素材 。 

模型 就 像 一 道 菜谱 。 而 绘图 程序 就 像 厨 师 ， 
它 读 取 模型 文件 ， 根 据 其 中 的 描述 ， 调 用 对 应 的 函 
数 生成 像素 颜色 值 并 输出 。 所 谓 图 像 的 “ 泻 染 ” 
(Rendering) 过 程 ， 其 实 就 在 这 些 具 体 的 函数 中 。 模 
型 只 是 画师 的 构思 记录 ， 浑 染 则 是 画师 的 笔墨 和 手 。 
当然 ， 冬 瓜 哥 必须 向 大 家 展示 这 些 函 数 底层 到 底 是 怎 
么 泻 染 图 形 的 ， 否 则 就 不 能 原谅 自己 


8.2.4.3 ”对 模型 进行 泻 染 


现在 想象 你 就 是 draw_line (起 始 坐 标 ， 结 束 
坐标 ) 函数 的 编写 者 ， 你 怎么 根据 这 两 个 参数 来 
确定 屏幕 上 哪个 像素 组 成 这 条 线 ， 然 后 写 入 对 应 像 
素颜 色 值 到 Frame Buffer 对 应 该 坐标 的 字 节 ? 还 记 
得 初中 学 过 的 ， 给 出 两 点 坐标 ， 求 该 直线 的 表达 式 
Z? 冬瓜 哥 反 正 已 经 忘 了 。 如 果 早 知道 今天 要 研究 
计算 机 作 图 ， 当 年 一 定 不 会 忘 。 不 过 ， 自 己 推导 一 
下 也 能 知道 ， 那 就 是 先 算出 这 个 直线 的 斜率 ， 也 
就 是 m=tg 0 = 两 点 纵 坐 标 差 /两 点 横 坐 标 差 ， 然 后 
y=mx+a。 这 样 ， 以 起 始 坐 标点 开始 ，for 〈x= 起 始 
坐标 点 ，x< 结 束 坐 标点 +1，x++ ) ( 求 y=mx+b }, 
即 可 求 出 该 直线 的 所 有 纵 坐 标 像素 ， 将 其 写 入 到 对 
应 的 数组 中 ， 也 就 确定 了 该 直线 的 所 有 像素 点 。 这 
算是 真正 的 图 形 “ 演 染 ”过 程 中 最 重要 的 一 步 ， 相 
当 于 将 图 形 的 骨架 勾勒 出 来 ， 然 后 就 是 对 每 个 像素 
点 上 色 和 各 种 后 期 特效 的 加 入 。 

给 出 顶点 ， 根 据 项 点 位 置 计算 连接 顶点 的 线段 所 
跨越 的 像素 点 的 过 程 ， 称 为 插值 (Interpolation》。 


实际 上 ， 按照 上 述 公 式 来 计算 的 话 ， 底 层 函 数 
需要 做 乘法 ， 而 对 数字 电路 来 讲 ， 乘 法 的 代价 要 高 
于 加 法 。 为 此 ， 人 们 使 用 加 法 来 计算 Y 坐 标点 。X 
每 次 +1，y 每 次 增加 的 其 实 是 m， 那 只 需要 将 上 一 次 
计算 所 得 的 y 值 Hm 即 可 ， 而 不 需要 用 当前 的 x 去 乘 以 
m， 这 就 大 大 节省 了 计算 量 。 这 些 函 数 底层 做 了 大 
量 的 这 类 优化 操作 。 当 然 ， 对 上 层 而 言 ， 这 些 底层 
机 制 可 能 很 少 有 人 去 关心 了 。 


且慢 ! 由 于 我 们 使 用 的 并 非 向 量 显示 器 而 是 像素 
/ 栅 格 显示 器 ， 其 每 个 像素 是 占有 一 定 面积 的 ， 所 以 直 


线 跨 越 的 像素 点 并 不 平滑 ， 如 图 8-114 所 示 。 当 一 条 
直线 跨越 了 两 个 像素 点 时 ， 到 底 该 选 哪个 像素 点 呢 ? 
这 就 对 应 了 一 些 不 同 的 算法 了 ， 比 如 根据 某 种 规则 来 
对 Y 值 取 整 数 ， 看 哪个 像素 取 整 后 的 Y 坐 标 接近 就 选 
哪个 。 


图 8-114 


跨越 像素 时 的 不 同 选择 

确认 对 应 图 形 所 占用 的 所 有 像素 坐标 的 过 程 ， 被 
称 为 栅 格 化 (Rasterization) 。 又 有 人 称 之 为 光栅 化 ， 
因为 目前 的 显示 器 每 个 栅 格 的 确 是 用 灯光 来 照 亮 的 ， 
不 过 冬瓜 哥 认 为 光栅 化 这 个 词 的 确 不 怎么 样 。 为 什么 
不 称 之 为 像素 化 〈 更 贴切 ) 呢 ? 一 个 像素 就 是 一 个 栅 
格 ， 但 是 像素 包含 另外 两 个 信息 ， 那 就 是 颜色 值 、 透 
明度 。 在 没有 确定 该 栅 格 的 颜色 之 前 ， 该 栅 格 就 不 能 
叫 作 像 素 ， 只 能 叫 栅 格 。 内 存 中 需要 为 生成 的 数据 准 
备 对 应 的 结构 体 表格 来 存放 。 

栅 格 化 的 下 一 步 ， 则 是 填充 每 个 像素 的 颜色 ， 也 
被 称 为 着 色 (Shading) 。 当 然 也 要 根据 函数 调用 时 
给 出 的 颜色 参数 ， 然 后 将 对 应 的 颜色 值 写 入 到 Frame 
Buffer 中 对 应 字 节 ， 也 就 完成 了 泻 染 过 程 。 这 一 步 的 
确 可 以 被 称 为 像素 化 ， 对 栅 格 填 上 颜色 。 

总 结 来 说 ， 人 工 绘制 的 2D 图 片 的 泻 染 过程 ， 就 
是 绘图 程序 根据 模型 中 的 描述 ， 调 用 相关 函数 最 终 
确定 图 形 占 用 的 像素 〈 栅 格 化 ) ， 以 及 填充 像素 颜 
色 (着色 ) 的 过 程 。 泻 染 其 他 图 形 ， 比 如 椭圆 ， 其 
过 程 也 都 类 似 。 根 据 公式 求 Y， 然 后 着 色 ， 当 然 ， 人 
们 针对 不 同 图 形 的 绘制 也 都 各 自发 明了 很 多 优化 的 
算法 。 

用 户 程序 可 能 会 要 求 将 一 个 封闭 形状 内 部 涂 满 某 
种 颜色 ， 这 个 过 程 被 称 为 填充 。 这 个 过 程 也 需要 计算 
该 图 形 封闭 起 来 的 所 有 像素 的 坐标 ， 然 后 直接 对 每 个 
像素 写 入 对 应 颜色 值 。 


提示 * 

试想 一 下 ， 泻 染 具有 固定 曲线 公式 的 线段 时 ， 
如 何 可 以 做 到 加 速 ? 假设 一 根 直线 跨越 了 一 万 个 横 
坐标 ， 那 么 是 不 是 可 以 用 100 个 线程 ， 每 个 线程 用 
同样 的 算式 只 计算 其 中 各 100 个 横 坐 标点 的 纵 坐 标 
值 ， 然 后 将 结果 汇总 到 某 个 线程 ， 然 后 统一 着 色 即 
可 ? 这 样 ， 理 论 性 能 提升 100 倍 。 没 错 ， 其 实 当 代 
的 这 些 显 卡 ， 基 本 也 就 是 这 种 思路 。 在 本 书 10.2.2 
节 中 介绍 的 OpenMP 可 以 自动 做 到 这 种 并 行 化 处 
理 。 再 思考 一 下 ， 上 述 的 浑 染 过 程 中 所 需 的 计算 步 
又， 是 否 可 以 依靠 Host 端 CPU 运行 Host 端 程序 来 执 
行 ? 是 否 可 以 将 坐标 和 颜色 信息 发 送 给 显卡 ， 然 后 
让 显卡 上 的 CPU/ 专 用 电路 来 执行 ? 都 可 以 ， 后 者 属 
于 用 图 形 加 速 卡 进行 图 形 加 速 泻 染 。 


8.2.4.4 矢量 图 和 bitmap 


上 述 这 种 人 工 绘制 的 2D 图 形 模型 ， 被 称 为 矢量 图 
(Vector Мар) ， 也 就 是 说 ， 其 记录 的 其 实 是 图 形 中 
每 个 线段 /多 边 形 等 元 素 的 几何 坐标 和 绘制 信息 。 矢 
量 图 文件 相当 于 计算 机 声音 领域 中 的 MIDI 音 乐 文件 。 
声卡 接收 MIDI 中 对 应 的 乐谱 指令 流 来 合成 出 音乐 最 终 
的 波形 ， 而 显卡 接收 矢量 图 中 的 描绘 信息 泻 染 出 最 终 
的 图 像 像素 。Host 端 可 以 利用 软 MIDI 合 成 器 来 合成 音 
乐 ，Host 端 也 可 以 利用 软 的 泻 染 器 来 泻 染 图 形 。 声 卡 
和 显卡 在 信息 处 理 的 本 质 方式 上 有 惊人 类 似 。 

程序 打开 一 个 矢量 图 文件 ， 其 实 是 根据 其 中 的 描述 
实时 泻 染 图 片 的 过 程 。 将 一 幅 打开 的 矢量 图 放大 /缩小 
的 过 程 ， 其 实 是 对 其 重新 泻 染 的 过 程 。 放 大 之 后 ， 其 跨 
越 的 像素 点 的 数量 和 位 置 都 会 发 生变 化 ， 对 应 的 函数 会 
重新 根据 绘制 信息 和 当前 的 图 形 尺 寸 计算 其 所 跨越 屏幕 
上 的 每 一 个 像素 点 的 位 置 和 颜色 ， 只 要 屏幕 分 辨 率 足 
够 高 ， 我 们 就 很 难 分 辨 出 矢量 图 边缘 上 的 锯齿 。 

还 有 另 一 类 图 片 文件 格式 ， 也 就 是 bitmap 格 式 及 
其 被 压缩 之 后 的 各 种 衍生 格式 。 其 本 质 是 通过 屏幕 截 
图 程序 直接 将 显存 中 的 像素 颜色 值 复制 下 来 或 者 直 
接 通 过 数码 相机 感光 器 件 生成 颜色 值 (这 也 是 其 被 
称 为 bitmap 的 原因 ) ， 然 后 将 它们 直接 保存 为 文件 而 
生成 的 ， 其 中 完全 没有 图 形 的 几何 信息 。 显 示 bitmap 
及 其 压缩 衍生 格式 的 图 片 时 ， 程 序 只 是 简单 地 将 整 
个 bitmap 按 照 像素 一 对 一 复制 到 显存 即 可 ， 根 本 不 需 
要 计算 。 同 理 可 得 ， 一 般 矢量 图 文件 的 尺寸 远 小 于 
bitmap。 这 就 像 向 量 显 示 器 场景 对 显存 占用 远 小 于 像 
素 显示 器 场景 。 

对 bitmap 图 片 进行 放大 时 ， 负 责 显示 图 片 的 程序 
只 是 简单 地 将 图 中 的 每 个 像素 点 根据 放大 比例 复制 成 
多 份 显示 在 屏幕 上 而 已 ， 这 当然 就 会 产生 一 块 块 突 元 
的 具有 相同 颜色 的 色 斑 ， 也 就 是 马赛 克 ， 如 图 8-115 
所 示 。 


第 8 章 绘声绘色 一 一 计算 机 如 何 处 理 声 音 和 图 像 辐 5 玫 呀 


图 8-115 ”矢量 图 与 bitmap 放 大 后 对 比 

bitmap 由 于 取 自 现成 的 景色 /图 片 ， 所 以 其 可 以 包 
含 更 多 复杂 的 几何 特征 和 颜色 信息 。 而 矢量 图 由 于 是 
靠 人 工 合成 绘制 的 ， 一 般 不 包含 丰富 的 色彩 信息 和 几 
何 信息 ， 因 为 其 被 建 模 和 填充 的 时 候 基本 都 是 以 线 、 
多 边 形 等 为 单位 ， 颜 色 单调 ， 过 度 较 为 明显 ， 纵 使 也 
带 有 很 强 的 人 工 味道 。 当 然 ， 矢 量 图 也 可 以 做 到 极限 
精细 巧夺天工 的 程度 ， 但 是 那样 的 话 必 将 耗费 更 长 时 
间 进 行 计算 和 演 染 ， 也 会 失去 实用 价值 。 如 图 8-116 所 
示 ， 你 很 容易 分 辨 出 矢量 图 和 bitmap。 一 些 2D 游 戏 和 
卡通 动画 中 的 图 形 也 都 是 用 矢量 图 方式 制作 的 ， 当 然 
不 排除 将 一 些 拍摄 的 照片 bitmap 嵌 入 到 画面 中 以 增加 
真实 感 ， 这 种 处 理 手法 被 称 为 贴图 。 


图 8-116 bitmap (AMD 与 矢量 图 AW) ЖЕ 


智能 手机 上 的 地 图 程序 使 用 的 地 图 文件 目前 
也 广泛 采用 矢量 图 形式 以 节省 空间 占用 。 早 期 的 
智能 手机 CPU 较 弱 ， 为 了 节省 手机 CPU 利 用 率 ， 
所 以 一 开始 并 没有 使 用 矢量 图 ， 而 直接 是 压缩 过 
的 bitmap， 所 以 下 载 的 地 图 尺寸 非常 大 。 后 来 手机 
CPU 的 处 理 能 力 日 新 月 异 的 发 展 ， 最 终 这 些 电 子 地 
图 程序 转 为 使 用 矢量 图 格式 ， 靠 CPU ( 或 者 手机 中 
集成 的 GPU ) 来 实时 泻 染 。 目 前 ，Windows/MacOS 
以 及 Linux 操 作 系 统 中 的 各 类 字体 也 是 采用 矢量 图 
方式 存储 并 泻 染 出 来 的 ， 正 因 如 此 ， 将 Word 或 者 
了 PPT 文档 中 的 字体 放大 时 ， 很 难看 到 锯齿 。 在 目前 
的 传统 BIOS 下 以 及 早期 的 一 些 简陋 系 统 中 使 用 的 
依然 是 点 阵 bitmap 字 库 (或 者 用 自己 存 的 软 字库 ， 
或 者 直接 用 显卡 上 的 硬 字 库 ， 也 就 是 显卡 的 文字 模 
式 ) ， 这 样 最 简单 ， 也 节省 代码 量 。 


bitmap 图 片 文件 就 相当 于 计算 机 声音 领域 中 的 记 
录音 频 采 样 点 的 PCM 文 件 ， 比 如 .wav， 以 及 压缩 过 
的 .mp3 等 。 同 理 bitmap 文 件 被 压缩 后 也 有 多 种 格式 ， 


3 可 大 话 计算 机 一 一 计算 机 系统 底层 架构 原理 极限 剖析 


比如 -jpg 等 。 图 像 和 声音 的 本 质 都 是 一 种 信息 ， 计 算 
机 对 信息 的 表示 和 处 理 过 程 本 质 上 类 似 也 就 不 足 为 


奇 了 。 


当然 ， 并 不 是 每 个 图 形 设计 者 的 情怀 都 满 到 发 
拆 自 己 从 头 设计 2D 游 戏 或 者 图 片 的 ， 多 数 实现 都 是 
先 利用 现成 的 bitmap 作 为 画布 ， 然 后 在 它 上 方 生成 自 
定义 的 图 形 和 颜色 ， 来 修饰 这 个 画布 ， 甚 至 可 以 把 另 
外 一 些 bitmap 覆 盖 进 来 ， 这 就 形成 了 多 个 图 层 。 甚 至 
可 以 将 操 在 一 起 的 每 个 bitmap 或 者 矢量 图 形 图 层 中 同 
一 个 位 置 像素 的 颜色 进行 混合 〈 直 接 覆 盖 下 层 颜色 ， 
或 者 对 多 个 颜色 值 做 诸如 Add 以 及 OR、AND 等 的 逻 
辑 运算 操作 ) ， 有 些 像素 可 以 被 设置 为 带 有 透明 度 的 
属性 〈 阿 尔 法 值 ) ， 那 么 位 于 它 下 层 的 像素 颜色 就 会 
有 一 定 程度 被 透 上 来 与 上 层 的 像素 颜色 混合 〈 阿 尔 法 
Blending， 阿 尔 法 混合 ， 具 体 做 法 是 将 又 加 图 层 部 分 
的 像素 颜色 值 与 阿尔 法 值 相 乘 后 再 相 加 ， 具 体 请 自行 


了 解 ) 。 


用 彩 笔画 过 画 的 朋友 都 知道 ， 不 同 的 颜色 涂抹 
到 一 起 真 的 可 以 变 成 另 一 种 颜色 。 这 个 过 程 对 应 到 
计算 机 中 ， 其 本 质 就 是 相 加 ， 加 法 ， 把 两 个 颜色 值 
载 入 ALU 相 加 ， 得 出 的 颜色 值 ， 与 用 彩 笔 得 出 来 
的 是 一 致 的 。 前 提 是 需要 使 用 真 彩色 值 而 不 是 索引 
色 值 ( 见 前 文 ) 来 相 加 ， 后 者 是 没有 物理 意义 的 。 
真 彩色 值 中 会 包含 R/G/B 三 原色 各 自 的 分 量 ， 假 设 
使 用 12 位 真 彩色 ， 则 111100000000 表 示 纯 红色 ， 
000000001111 表 示 纯 蓝 色 。 那 么 两 者 相 加 应 该 是 纯 
紫色 ， 也 就 是 111100001111， 的 确 是 这 样 。 那 么 将 
两 个 像素 值 相 乘 会 有 什么 意义 呢 ? 一 般 来 讲 没有 意 
义 ， 这 会 改变 像素 的 整体 色调 ， 因 为 RGB 分 量 的 比 
例会 变化 。 但 是 将 一 个 像素 值 与 一 个 固定 系数 相 乘 
是 有 意义 的 ， 这 回 改变 该 像素 的 整体 亮度 ，RGB 分 
量 的 比例 并 无 变化 。 光 照 处 理 就 是 这 样 来 计算 的 ， 


反光 高 的 地 方 亮度 高 ， 详 见 后 文 。 


上 述 这 些 针 对 像素 的 处 理 操作 被 统称 为 光栅 化 操 
作 (Rasterization Operation, КОР) 。 将 不 同 图 层 登 
加 起 来 的 过 程 被 俗称 为 bitblt (bit block) ， 底 层 过 程 


жаы УМ 


ө 
顶点 0 坐标 хо, уо) 顶点 0 坐标 xo , уо) 
项 点 1 坐标 (xi , y: ) 顶点 1 ke (х , yi) 
顶点 2 坐标 ( xz ,yz ) 顶点 2 坐标 (х,у; 
ass Уз) 顶点 3 坐标 ( xÚ , Уз) 
顶点 4 Ант ( ха, ya ) 顶点 4 坐标 (Xe ,ys ) 
顶点 5 坐标 (xs , ys ) 顶点 5 坐标 (xs , ys ) 


图 8-117 


其 实 就 是 将 bitmap 复 制 到 存放 像素 的 缓冲 区 的 过 程 ， 
复制 的 同时 也 可 以 将 待 复制 的 像素 与 目标 同样 位 置 像 
素 做 各 种 ROP 操 作 。 


8.2.4.5 顶点、 索引 和 图 元 


思考 一 下 ， 矢 量 图 中 所 记录 的 绘图 信息 ， 每 个 图 
ERTA СУегіех) 坐标 非常 重要 。 对 于 线段 ， 其 具 
有 起 始 和 结束 的 两 个 顶点 坐标 。 对 于 多 边 形 ， 其 具有 
对 应 数量 的 顶点 坐标 。 对 于 圆 和 椭圆 ， 其 具有 圆心 坐 
标 和 半径 信息 。 可 以 看 到 ， 线 段 、 多 边 形 都 离 不 开 项 
点 这 个 非常 重要 的 信息 。 任 何 形状 ， 都 可 以 利用 无 限 
细 分 的 线段 堆砌 出 来 ， 而 描述 一 个 线段 只 需要 两 个 顶 
点 。 那 么 ， 是 不 是 只 需要 记录 所 有 的 顶点 坐标 就 可 以 
TR? 显然 不 行 。 如 图 8-117 所 示 ， 同 样 的 6 个 顶点 ， 
不 同 的 连接 方式 ， 会 产生 不 同 的 二 维 图 形 。 

所 以 ， 一 份 2D 矢 量 图 的 基本 模型 信息 除了 顶点 坐 
标 之 外 ， 还 需要 包含 描述 哪 几 个 项 点 要 被 连接 起 来 的 
信息 ， 后 者 被 称 为 索引 。 由 顶点 组 成 的 基本 图 形 被 称 
为 图 元 (Primitive》。 还 记得 Primitive 这 个 词 么 ,其 
在 通信 领域 中 被 翻译 为 “ 原 语 ”， 可 以 参考 第 7 章 中 
内 容 。 


8.2.4.6 ”2D 图 形 动画 


制作 好 的 2D 图 形 ， 多 半 是 为 了 实现 2D 游 戏 用 
的 。 游 戏 的 画面 是 动态 的 ， 而 且 其 运动 的 单元 一 般 是 
画面 中 的 某 个 物品 或 者 人 物 。 

当然 ， 我们 不 能 总 把 计算 机 图 形 与 游戏 挂钩。 
一 些 工程 设计 领域 一 样 需要 2D 作 图 ， 你 经 常用 的 


了 PowerPoint， 也 是 一 个 典型 的 2D 作 图 软件 ， 它 们 都 
是 用 矢量 图 方式 。 


假设 ， 某 个 物体 /人 物 图 形 需要 在 屏幕 上 以 每 秒 
1000 像 素 的 速度 沿 X 轴 向 前 匀速 运动 ， 也 就 是 平移 运 
动 。 这 个 场景 大 家 一 定 很 熟悉 ， 比 如 一 些 横 版 过 关 游 
戏 ， 用 键盘 操纵 着 人 物 向 前 走 。 要 实现 这 个 效果 ， 首 
先 ， 游 戏 程序 需要 接收 键盘 发 来 的 键盘 码 ， 比 如 向 右 
走 为 持续 按 “D” 键 ， 键 盘 会 按照 一 定 频率 连续 发 出 


Я / 


z (0,1,2) ЖАО (х,у) 三 角形 0 АМИ (0,3,2) 
贝 塞 尔 曲线 0 项 点 顺序 (3, 5 , 4) 顶点 1 (>í. y.) 三 角形 1 ШЕ (0,1,3) 
顶点 2 坐标 ( xz , yz ) 5,4) 
顶点 3 坐标 (x3 , уз) 
顶点 4 坐标 (Xe , Ya ) 
顶点 5 坐标 (xs , ys ) 
顶点 可 以 连接 成 不 同 图 形 


脉冲 ， 程 序 每 接收 到 一 次 D 键 的 脉冲 ， 就 将 人 物 向 前 
移动 一 段 距离 ， 为 了 让 玩家 感觉 到 连续 流畅 ， 每 次 移 
动 比如 8 个 像素 。 

有 两 种 手段 来 平移 。 第 一 种 手段 是 将 之 前 泻 染 
好 的 整个 物体 占用 的 所 有 像素 坐标 的 X 值 统一 +8， 将 
算 好 的 数据 记录 到 数组 中 ， 然 后 将 该 图 形 占用 的 每 个 
像素 的 像素 值 直接 从 Frame Buffer 中 原来 的 位 置 ， 复 
制 到 该 数组 指向 的 新 位 置 。 这 种 处 理 方式 不 需要 重新 
绘制 图 形 (不 需要 根据 矢量 信息 重新 计算 图 形 跨越 的 
像素 点 ) ， 但 是 需要 为 每 个 图 形 保存 该 图 形 所 占用 的 
所 有 像素 的 位 置 坐标 ， 会 耗费 很 多 的 显存 。 另 外 一 个 
不 可 和 逾越 的 壁 又 是 ， 该 人 物 向 前 移动 之 后 ， 人 物 原 来 
位 置 的 像素 怎么 处 理 ? 对 于 游戏 而 言 ， 其 一 定 是 要 露 
出 画面 的 原始 背景 才 对 。 怎 么 补 上 这 块 背 景 ? 显然 ， 
2D 图 形 动画 /游戏 /工程 设计 根本 就 不 能 用 上 面 这 种 手 
段 ， 除 非 背 景 是 黑色 的 ， 画 面 上 只 有 这 一 个 物体 ， 但 
是 这 样 不 具备 通用 性 。 

第 二 种 手段 ， 也 是 最 通用 的 方式 ， 也 就 是 只 将 该 
图 形 对 应 的 矢量 信息 中 的 所 有 坐标 X 值 +8， 之 后 在 新 
的 位 置 重新 绘制 该 图 形 。 不 仅 如 此 ， 整 个 屏幕 上 的 其 
他 图 形 元 素 也 需要 全 部 重新 泻 染 ， 这 样 ， 整 个 背景 图 
形 也 会 重新 被 生成 ， 自 然 就 填补 了 那个 所 谓 的 空洞 ， 
所 以 ， 这 个 空洞 从 一 开始 就 不 存在 ， 因 为 所 有 元 素 都 
重新 绘制 。 

思考 一 下 ， 人 物 图 形 一 定 要 位 于 背景 图 形 的 前 
方 ， 也 就 意味 着 ， 背 景 要 先 被 泻 染 ， 人 物 后 浑 染 。 如 
果 不 按照 顺序 泻 染 ， 将 会 出 现 错误 的 覆盖 。 所 以 ， 一 
幅 由 矢量 模型 描绘 的 2D 图 像 ， 必 须 还 要 包含 图 层 顺 
序 信息 ， 演 染 时 先 泻 染 底层 图 层 ， 再 依次 泻 染 上 层 图 
层 。 带 有 多 个 图 层 的 2D 模 型 有 时 又 被 称 为 2.5D 图 像 。 
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再 思考 一 下 ， 游 戏 中 的 人 物 向 前 运动 ， 移 动 到 屏 
幕 边缘 怎么 办 ? 显然 ， 实 际 游戏 中 并 不 是 人 物 在 动 ， 
而 是 背景 在 动 ， 人 物 始终 固定 在 屏幕 某 个 位 置 。 所 
以 ， 需 要 将 背景 图 层 中 的 顶点 整体 向 后 方 移动 然后 了 
新 绘制 ， 可 以 用 多 个 不 同 运动 速度 的 图 层 倒 加 起 来 营 
造 出 透视 立体 效果 (Parallax Scrolling 技 术 ) ， 如 图 
8-118 所 示 。 可 以 将 最 底层 的 图 层 直接 更 换 为 bitmap， 
移动 bitmap 底 层 对 应 着 直接 显存 复制 ， 从 而 省 掉 了 计 
算 资 源 。 具 体 如 何 设计 完全 取决 于 游戏 设计 者 了 。 

当然 ， 游 戏 中 移动 的 人 物 图 形 ， 除 非 是 僵尸 ， 否 
则 怎么 也 都 得 有 一 些 动作 比如 甩 手 、 摇 摆 等 ， 这 些 都 
需要 对 该 图 形 的 矢量 坐标 点 的 相对 位 置 进行 改变 ， 不 
但 要 平移 ， 还 要 相对 位 移 ， 这 些 都 需要 程序 计算 好 ， 
每 次 移动 ， 每 个 坐标 点 的 新 位 置 是 多 少 。 

对 图 形 内 部 的 某 些 项 点 进行 相对 位 移 ， 会 产生 一 
些 奇妙 的 效果 ， 比 如 海浪 效果 。 我 们 假设 海面 上 各 点 
的 振幅 符合 正弦 波 的 变化 方式 。 那 么 ， 只 要 将 一 条 直 
线 上 各 点 的 纵 坐 标 按照 正弦 方式 随 着 时 间 变化 就 可 以 
了 。 这 个 效果 对 应 着 什么 计算 呢 ? 直接 将 每 个 点 纵 坐 
标 与 一 个 正弦 函数 比如 y=sin (ФО HARET, Hpt 
为 系统 时 间 ， 对 t 的 采样 可 以 认为 调节 ， 采 样 率 越 高 ， 
动画 变化 频率 越 高 ， 当 然 消耗 资源 也 越 大 ， 如 图 8-119 
所 示 。 如 果 要 让 波形 更 加 平滑 ， 那 就 需要 增加 模型 中 
的 顶点 数量 ， 当 然 运 算 量 也 就 越 大 。 

利用 这 种 技术 泻 染 出 来 的 画面 如 图 8-120 所 示 。 
其 中 海面 的 泻 染 可 以 采用 背景 bitmap+ 上 层 矢量 图 + 矢 
量 图 动画 方式 来 泻 染 ， 这 个 背景 图 bitmap 通 常 被 称 为 
画布 Canvas) 。 或 者 也 可 以 在 后 期 直接 对 整 幅 演 染 
好 的 bitmap 图 形 用 另 一 幅 调制 图 形 做 某 种 ROP， 比 如 
XOR 等 来 改变 目标 位 置 ( 比 如 海浪 线 处 ) 的 颜色 ， 从 
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图 8-119 用 正弦 函数 调制 模型 的 顶点 坐标 
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图 8-120 ”利用 顶点 坐标 动态 调制 来 生成 动画 


而 生成 动态 海浪 效果 。 后 者 耗费 资源 更 小 ， 因 为 不 牵 
扯 矢 量 运算 ， 只 是 简单 的 bitblt+ROP， 但 是 程序 尺寸 
也 会 大 ， 因 为 要 保存 bitmap， 运 行 时 占用 的 Host 端 内 
存 也 会 增加 ， 所 以 最 终 需 要 权衡 存储 和 计算 这 两 种 资 
源 。 实 际 工程 中 有 大 量 不 同 的 泻 染 方式 和 组 合 ， 效 果 
也 是 千差万别 。 

如 果 只 能 平移 ， 动 画 效果 就 不 够 丰富 。 还 可 以 
有 另外 两 种 基本 坐标 变化 方式 ， 那 就 是 旋转 和 缩放 。 
将 一 个 图 形 的 坐标 点 统一 与 对 应 的 三 角 函 数 相 乘 即 可 
做 到 旋转 ， 统 一 与 一 个 定 值 相 乘 即 可 做 到 放大 或 者 
缩小 。 

能 够 根据 用 户 的 键盘 /鼠标 等 设备 的 输入 信和 号 或 者 
时 间 信 号 来 触发 的 画面 持续 泻 染 过程 ， 被 称 为 实时 泻 


染 。 而 有 时 候 人 们 只 需要 泻 染 唯一 的 一 张 静 态 图 片 ， 
那 就 是 离线 泻 染 。 前 者 一 般 无 法 将 图 像 质 量 做 得 太 好 
(不 引入 过 多 的 模型 项 点 和 后 期 处 理 动画 特效 ， 分 辨 
率 也 不 会 设置 的 太 高 )， 因 为 硬件 的 泻 染 速度 无 法 跟 
上 人 眼 的 30 帧 每 秒 的 最 低 流畅 度 要 求 。 而 后 者 则 没有 
实时 性 要 求 ， 完 全 以 最 终 图 片 效 果 为 导向 ， 有 时 候 可 
能 泻 染 耗 时 长 达 几 十 秒 甚至 几 分 钟 。 
8.2.4.7 ”坐标 变换 及 矩阵 运算 

每 个 2D 矢 量 图 形 中 记录 的 顶点 坐标 值 ， 都 是 以 自 
己 为 宇宙 中 心 而 确定 的 ， 因 为 这 些 图 形 并 不 知道 自己 
将 会 被 放置 在 哪个 世界 中 ， 就 暂时 以 自己 为 中 心 了 。 
但 是 ， 绘 图 程序 要 将 多 个 2D 图 形 放 到 一 个 由 众多 图 形 


动画 还 可 以 采用 将 一 个 bitmap 图 标 在 画面 中 移 来 移 去 的 方式 形成 。 也 可 以 将 该 图 标的 不 同形 态 ( 帧 ) 各 
自生 成 一 个 bitmap ， 当 触发 动画 时 按照 一 定 帧 率 连 续 将 图 标 显示 出 来 ， 这 种 方式 叫 作 帧 动画 。 对 应 的 图 标 被 
称 为 Sprite ( 精灵 ) 。 如 图 8-121 所 示 ， 图 中 分 别 为 旋转 的 小 能 、 行 走 的 人 物 和 爆炸 特效 对 应 的 精灵 图 片 。GIF 
图 片 格式 就 是 一 种 帧 动画 方式 。 通 过 改变 顶点 坐标 然后 重新 实时 泻 染 生成 动画 的 方式 被 称 为 顶点 动画 。 也 可 
以 预先 用 改变 顶点 的 方式 得 到 多 个 变形 的 的 模型 ， 泻 染 出 多 个 帧 ， 再 组 成 帧 动画 。 将 图 片 中 的 一 些 像素 与 
一 些 定 值 做 ROP 操 作 来 改变 颜色 的 动画 方式 ， 以 及 前 文中 介绍 过 的 通过 改变 调 色 板 颜色 来 生成 的 动画 ， 则 是 
ROP 动 画 。 

利用 改变 顶点 位 置 生成 动画 需要 重新 泻 染 模型 ， 但 是 灵活 性 也 高 ， 比 如 通过 某 些 算法 实现 真实 物理 特 
效 。 而 帧 动画 则 都 是 预先 确定 好 的 无 法 改变 。 在 20 世 纪 70 年 代 末 ， 一 些 计算 机 利用 硬件 来 存储 Sprite， 而 且 可 
以 接收 对 应 的 指令 来 移动 这 些 Sprite， 利 用 这 些 特性 来 生成 比如 乒 兵 球 等 需要 有 一 些 固定 物体 在 屏幕 上 运动 
的 游戏 。 当 然 ， 这 些 Sprite 起 初 颜色 和 像素 都 很 简陋 ， 后 来 逐渐 有 多 色 、 可 动画 的 (如 图 8-121 ) 硬件 Sprite 出 
现 。 而 在 当代 ， 由 于 各 种 处 理 芯片 以 及 数据 总 线 的 能 力 大 大 提升 了 ， 硬 件 Sprite 也 就 没有 人 再 用 了 。 
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图 8-121 利用 Sprite 做 动画 


组 成 的 大 场景 下 的 话 ， 就 需要 将 所 有 图 形 原本 的 相对 
坐标 转换 为 该 场景 下 的 绝对 坐标 。 人 们 将 图 形 模型 中 
的 相对 坐标 值 称 为 模型 坐标 系 ， 而 将 当前 绘制 的 整体 
场景 称 为 世界 坐标 系 。 

可 以 想象 ， 绘 图 程序 载 入 每 个 矢量 图 形 文件 时 ， 
都 需要 对 该 图 形 中 所 有 顶点 的 坐标 进行 坐标 变换 计 
算 。 这 个 计算 过 程 并 不 复杂 ， 无 非 就 是 将 该 图 形 将 要 
被 放置 到 的 世界 坐标 系 的 坐标 值 ， 与 该 图 形 项 点 原 有 
坐标 值 做 一 个 加 法 即 可 ， 这 也 就 相当 于 平移 运算 。 但 
是 ， 如 果 图 形 中 的 顶点 数量 很 多 的 话 ， 还 是 需要 一 定 
的 运算 量 。 


可 以 想象 ， 从 模型 坐标 转换 到 世界 坐标 之 后 ， 
所 有 位 于 世界 坐标 系 中 的 图 形 的 顶点 坐标 ， 会 被 保 
存在 内 存 中 某 段 区 域内 ， 这 个 区 域 被 称 为 顶点 缓存 
( Vertex Buffer) 。 当 然 ， 也 需要 将 索引 记录 到 缓 
存 中 ， 以 知道 哪些 顶点 组 成 了 什么 图 形 ， 也 就 是 索 
81882. (Index Buffer) ; 同 理 ， 颜 色 填充 信息 也 需 
要 放置 在 Color Buffer 中 了 。 


为 了 方便 计算 ， 人 们 采用 矩阵 相 乘 的 方式 来 
对 顶点 进行 坐标 变换 。 如 图 8-122 所 示 分 别 为 旋转 
(Rotation) 、 缩 放 〈Scaling) 和 平移 (Translation) 
所 对 应 的 运算 矩阵 。 先 看 右 下 角 的 平移 矩阵 。 和 拢 阵 运 
算 的 规则 是 右边 的 矩阵 列 中 的 每 一 个 值 与 中 间 和 矩阵 中 
每 一 行 的 值 分 别 相 乘 ， 得 出 的 值 放 入 左边 矩阵 列 。 也 
就 是 : x'= х1+у0+70+1-; у’= х0+у-1+70+14,; 
Z = х'0+у-0+2:1+1-4, 

同 理 ， 旋 转 和 缩放 矩阵 的 运算 规则 也 都 如 上 述 所 
言 ， 这 样 就 可 以 统一 运算 ， 实 现 各 种 组 合 ， 比 如 同时 
平移 、 旋 转 和 缩放 ， 那 就 分 别 依次 与 对 应 的 矩阵 相 乘 
即 可 。 
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另外 ， 在 世界 坐标 系 中 ， 有 时 候 设计 者 需要 表示 
范围 差别 非常 大 的 坐标 点 ， 比 如 将 某 个 图 形 放 置 到 相 
距 某 个 图 形 3.14159 处 ， 再 将 另外 一 个 物体 放置 到 高 
该 物体 1x10' 处 。 对 于 屏幕 上 的 像素 点 来 讲 ， 这 两 个 
值 根 本 是 无 意义 的 ， 因 为 屏幕 像素 点 坐标 都 是 整数 ， 
不 可 能 存在 x=3.14 坐 标 处 的 像素 ， 要 么 是 x=3， 要 么 
是 x=4。 这 样 的 话 ， 对 于 图 形 设计 者 来 讲 ， 就 需要 在 
整数 坐标 系 中 放置 图 形 ， 这 会 产生 很 大 的 局 限 性 ， 影 
响 图 形 设 计 者 的 几何 观 。 也 就 是 说 人 脑 还 是 习惯 在 一 
个 更 大 更 灵活 的 、 无 限 连续 的 坐标 系 中 摆 放 图 形 ， 或 
者 最 起 码 应 该 是 在 一 个 浮 点 数 坐 标 系 中 来 摆 放 (关于 
浮 点 数 的 范围 和 精度 的 介绍 请 参考 本 书 第 5 章 ) ， 这 
样 将 会 非常 方便 。 比 如 你 在 整数 坐标 0 和 3 的 正中 间 放 
置 一 个 图 形 ， 但 是 这 个 图 形 的 宽度 为 2， 但 是 ， 你 怎 
么 也 摆 放 不 到 正中 间 ， 因 为 整数 坐标 系 中 没有 1.5 这 
个 坐标 ， 那 么 ， 你 只 能 把 场景 中 其 他 所 有 物体 整体 
平移 一 个 值 ， 原 来 的 0 和 3 变 成 了 0 和 4， 然 后 再 把 这 
个 图 形 放 到 坐标 2 上 ， 就 是 在 正中 间 了 。 如 果 利用 浮 
点 数 ， 就 没有 任何 问题 。 当 然 ， 最 终 物 体 展现 在 屏 
幕 上 一 定 是 整数 坐标 的 像素 ， 此 时 可 以 批量 做 取 整 
操作 即 可 。 如 果 设计 之 处 就 用 整数 坐标 ， 不 是 不 可 
以 ， 而 是 太 不 方便 。 如 图 8-123 所 示 ， 将 整个 位 于 浮 
点 坐标 系 中 的 图 形 先进 行 等 比例 缩放 ， 然 后 将 浮 点 
数 坐标 进行 取 整 操作 。 实 际 过程 就 是 将 坐标 先后 与 
两 个 运算 矩阵 相 乘 。 
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图 8-123 ”将 浮 点 数 坐标 系 转换 为 屏幕 坐标 系 


图 8-122 ”利用 矩阵 相 乘 进行 坐标 变换 
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8.2.4.8 2D 图 形 泻 染 流程 小 结 


根据 我 们 上 文 所 述 ， 演 染 2D 图 形 的 制作 和 演 染 基 
本 流程 如 下 。 

(1) 前 期 素材 制作 阶段 。 设 计 制 作 2D 模 型 。 这 
一 步 可 以 手工 一 点 点 做 ， 也 可 以 依靠 一 些 制图 建 模 工 
具 来 生成 ， 将 制作 好 的 图 形 信息 打 包 到 矢量 图 中 。 至 
于 矢量 图 文件 内 部 的 具体 记录 格式 请 大 家 自行 了 解 。 
这 一 步 主要 是 由 图 形 设 计 师 依 靠 图形 建 模 工具 比如 
CorelDraw, 3ds Max、Maya 等 建 模 工具 来 完成 。 

(2) 模型 载 入 阶段 。 主 程序 从 2D 模 型 文件 〈 矢 
量 图 ) 中 载 入 图 形 的 图 元 信息 ， 包 括 项 点 信息 、 索 引 
信息 、 颜 色 信息 等 。 将 它们 载 入 内 存 中 的 对 应 Buffer 
中 。 这 一 步 由 演 染 程序 〈 比 如 游戏 ) 主 程序 负责 。 

(3) 顶点 动画 特效 生成 阶段 。 根 据 对 应 的 动画 
算法 ， 改 变 已 载 入 图 形 项 点 的 位 置 ， 比 如 按照 最 基本 
的 平移 、 缩 放 、 旋 转 方式 ， 再 比如 按照 正弦 等 更 复杂 
的 方式 波动 等 ， 甚 至 可 以 响应 外 部 键盘 的 键 码 ， 对 图 
形 项 点 位 置 做 交互 式 实时 计算 ， 实 现 各 种 符合 物理 规 
律 的 特效 。 比 如 用 户 用 鼠标 来 戳 某 个 图 形 ， 按 照 鼠 标 
稚 的 角度 和 当时 鼠标 的 移动 速度 ， 将 对 应 图 形 的 相关 
顶点 位 置 做 止 陷 处 理 。 这 里 的 关键 字 是 : 相关 。 哪 些 
顶点 会 跟随 本 次 戳 动 一 起 运动 ? 各 自 运动 到 哪里 ? 这 
个 过 程 可 以 根据 经 验 值 给 出 一 些 固定 算法 ， 也 就 是 固 
定 的 平移 和 矩阵。 当然， 如 果 考 虑 力矩 ， 这 个 图 形 还 可 
以 发 生 旋 转 ， 那 么 根据 经 验 值 设 置 一 个 平移 矩阵 和 一 
个 旋转 矩阵 ， 将 图 形 项 点 与 这 两 个 矩阵 做 乘法 即 可 得 
出 图 形 的 新 位 置 。 如 果 想 模拟 得 更 加 真实 ， 那 就 需要 
计算 出 受 影响 的 顶点 以 及 其 最 终 位 置 。 这 里 面 又 牵扯 
到 该 图 形 是 刚体 、 黏 体 还 是 流体 。 需 要 引入 相应 的 力 
学 公式 来 处 理 ， 运 算 量 将 会 增加 。 最 简单 的 方式 则 可 
以 将 每 个 顶点 当 作 相 互 连 接着 的 小 球 ， 然 后 计算 其 中 
一 个 小 球 向 内 运动 后 ， 其 他 小 球 在 一 段 时 间 之 后 的 移 
动 位 置 。 这 一 步 由 泻 染 程序 〈 比 如 游戏 ) 主 程序 全 程 
负责 ， 或 者 由 主 程序 负责 下 发 任务 到 外 部 的 图 形 加 速 
器 ， 后 者 负责 具体 的 运算 。 

(4) 坐标 转换 阶段 。 将 上 一 步 得 出 的 所 有 项 点 
坐标 从 浮 点 数 坐 标 空间 转换 到 屏幕 整数 坐标 空间 。 这 
一 步 由 泻 染 程序 〈 比 如 游戏 ) 主 程序 全 程 负责 ， 或 者 
由 主 程序 负责 下 发 任务 到 外 部 的 图 形 加 速 器 ， 后 者 负 
责 具 体 的 运算 。 

(5) 栅 格 化 和 着 色 填 充 阶段 。 从 索引 缓存 中 读 
出 每 个 图 元 的 顶点 序号 和 顺序 信息 ， 再 从 顶点 缓存 中 
读 出 对 应 顶点 ， 然 后 读 出 色彩 信息 和 图 层 等 信息 ， 按 
照 对 应 的 方法 ， 比 如 直线 就 按照 直线 方程 、 曲 线 按照 
曲线 方程 ， 计 算出 图 形 所 跨越 的 屏幕 像素 并 填充 入 对 
应 的 颜色 值 。 下 方 图 层 中 的 图 形 先 泻 染 ， 上 层 的 后 泻 


染 。 这 一 步 由 演 染 程序 〈 比 如 游戏 ) 主 程序 全 程 负 
责 ， 或 者 由 主 程序 负责 下 发 任务 到 外 部 的 图 形 加 速 
器 ， 后 者 负责 具体 的 运算 。 

(6) 后 期 像素 效果 处 理 阶段 。 对 演 染 好 的 图 形 
进行 后 期 特效 处 理 ， 比 如 在 此 时 可 以 引入 后 期 动画 
特效 ， 比 如 修改 图 像 的 整体 色调 ， 与 一 些 bitmap 进 行 
ROP 操 作 等 。 这 一 步 由 泻 染 程序 〈 比 如 游戏 》 主 程序 
全 程 负责 ， 或 者 由 主 程序 负责 下 发 任务 到 外 部 的 图 形 
加 速 器 ， 后 者 负责 具体 的 运算 。 

那么 ， 绘 图 库 和 外 部 图 形 加 速 卡 在 这 个 过 程 中 是 
怎么 发 挥 作 用 的 呢 ? 


8.2.4.9 ”2D 绘 图 库 以 及 泻 染 加 速 


上 述 所 有 步骤 ， 可 以 全 程 由 Host 端 程序 来 完成 ， 
然后 直接 将 生成 的 像素 写 入 到 Frame Buffer， 这 样 就 
只 能 依靠 Host 端 CPU 来 负责 所 有 计算 。 其 中 一 部 分 功 
能 又 可 以 被 封装 为 绘图 库 ， 这 些 功能 就 可 以 由 绘图 库 
函数 全 权 负 责 ， 但 是 依然 由 Host CPU 完成 计算 。 而 
如 果 使 用 了 带 有 图 形 加 速 功 能 的 显卡 ， 比 如 8.2.4 节 中 
介绍 的 PGC， 那 么 图 形 库 可 以 将 图 形 绘制 请 求 转 化 为 
加 速 卡 能 够 接收 的 绘图 指令 。 绘 图 库 需要 把 待 绘制 的 
顶 上 点、 索引、 绘制 类 型 〈 三 角形 、 线 段 、 圆 还 是 和 矩 
Ж? ) 等 信息 发 送 给 显卡 ， 具 体 方式 是 采用 Host 端 内 
存 中 创建 队列 的 方式 ， 采 用 任务 描述 结构 传递 命令 和 
数据 指针 等 信息 。 显 卡 则 从 队列 中 取出 任务 然后 进行 
泻 染 。 支 持 利用 图 形 卡 进行 硬件 加 速 的 图 形 库 ， 除 了 
实现 软 算法 之 外 ， 还 需要 实现 与 外 部 图 形 加 速 卡 之 间 
的 API 接 口 函数 ， 比 如 如 何 下 发 任务 ， 任 务 描述 结构 应 
该 是 什么 具体 格式 和 规则 ， 设 置 多 少 个 缓冲 区 ， 各 存 
放 什么 类 型 数据 等 烦琐 的 细节 。 另 外 它 也 需要 实现 
与 绘图 主 程序 之 间 的 接口 函数 ， 如 图 8-124 一 图 8-127 
所 示 。 

对 于 顶点 动画 所 需要 的 计算 ， 理 论 上 也 可 以 采用 
图 形 卡 来 运算 ， 但 是 早期 的 图 形 卡 只 支持 有 限 的 运算 
模式 ， 比 如 对 项 点 的 常规 平移 、 旋 转 和 缩放 操作 。 对 
于 一 些 稍微 复杂 一 些 的 运算 ， 这 几 种 固定 操作 就 显得 
不 够 了 ， 虽 然 可 以 在 Host 端 计算 一 部 分 ， 将 那些 能 够 
加 速 卡 内 固定 算法 的 部 分 下 放 到 加 速 卡 计 算 ， 但 是 这 
样 编程 很 不 方便 。 不 过 ， 当 代 的 图 形 加速 卡 都 已 经 支 
持 可 编程 计算 ， 也 就 是 Host 端 将 一 个 自 定义 的 程序 下 
发 到 显卡 上 运行 。 

如 图 8-124 一 图 8-127 所 示 为 GDI (Graphic Device 
Interface) 2D 图 形 库 所 提供 的 一 些 函数 ， 具 体 就 不 多 
介绍 了 ， 大 家 可 以 感性 认识 一 下 。 微 软 后 来 又 推出 了 
GDI+、DirectDraw/Direct2D 等 2D 图 形 库 ， 有 兴趣 者 可 
以 自行 了 解 细节 。 
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8.2.5 3D 图 形 模型 和 表示 方法 


试想 一 下 ， 人 脑 是 如 何 感 知 三 维 世界 的 ? 如 图 
8-128 上 方 所 示 ， 如 果 挡 住 2/3/4 号 图 形 ， 只 观察 1 号 ， 
你 能 判定 它 是 个 三 维 正方 体 么 ? 不 能 。2 号 图 形 ， 多 
了 三 条 线 ， 产 生 了 三 个 面 ， 根 据 经 验 ， 这 已 经 可 以 
让 你 判断 出 大 概 了 。 对 于 3 号 图 形 ， 不 同 的 面 的 亮度 
不 同 ， 已 经 基本 可 以 确定 其 意义 了 。4 号 就 更 不 用 说 
了 ， 左 上 角 的 光照 和 右 下 角 的 阴影 说 明了 一 切 。 其 
实 ， 这 四 个 图 形 在 显示 器 平面 上 占用 的 像素 面积 、 形 
状 ， 是 完全 一 样 的 。 

如 果 仔 细 思 考 一 下 就 能 体会 到 ， 人 脑 接受 的 视 神 
经 的 输入 永远 都 是 2D 的 图 像 ， 也 就 是 3D 世 界 在 人 脑 
中 的 2D 投 影 。 人 脑 之 所 以 理解 了 3D， 是 因为 观察 一 
个 物体 的 视角 是 可 以 变化 的 ， 你 可 以 绕 到 该 物体 的 侧 
面 重新 观察 该 物体 ， 发 现 其 2D 投 影 也 会 跟着 变化 ， 经 
过 对 不 同 视角 的 投影 进行 组 合 识别 分 析 ， 最 终 形成 3D 
图 形 的 立体 感 观 。 所 以 人 自从 出 生起 就 不 断 地 接受 周 
围 事物 的 各 种 角度 投影 的 训练 ， 形 成 了 经 验 ， 才 产生 
了 理解 3D 世 界 的 能 力 。 

而 对 于 3/4 号 图 形 ， 即 便 你 不 去 绕 到 它 侧 面 去 观 
察 ， 只 通过 观察 其 不 同位 置 对 光线 的 反射 率 /明暗 程 
度 ， 根 据 经 验 ， 也 可 以 判断 出 明显 有 一 个 z 轴 方向 的 
存在 ， 光 线 就 是 大 自然 赐予 的 参照 物 和 测量 尺 。 但 
是 ， 设 想 一 下 ， 如 果 你 从 来 没有 尝试 过 绕 到 物体 侧面 
观察 ， 假 设 你 生来 就 是 静止 的 ， 动 弹 不 得 ， 连 眼珠 都 
ко 你 有 可 能 只 会 认为 该 图 形 左 上 角 的 亮度 高 

些 ， 右 下 角 有 个 暗色 斑 而 已 ， 并 不 会 认为 该 图 形 存 
L ы E een 
生 不 了 立体 感 观 ， 所 以 4 号 图 形 在 你 眼中 只 是 一 个 正 
方形 、 两 个 菱形 ， 以 及 一 个 一 角 被 挡住 的 “ 躺 着 ”的 
ЗЕНА Т. 


明 瞳 处 理 ( Shade ) 
图 8-128 ”人 脑 对 三 维 的 理解 
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看 一 看 你 眼前 的 景象 ， 放 弃 你 的 经 验 ， 重 新 思 | 
考 你 眼前 的 图 像 。 物 体 的 反射 光 将 物体 投影 在 你 的 ， 
视网膜 上 ， 当 你 移动 视角 时 ， 原 先 被 遮挡 的 部 分 逐 
渐 露 出 来 ， 或 者 之 前 暴露 的 被 遮挡 ， 以 及 物体 轮 廉 
的 形状 、 大 小 发 生 了 变化 。 这 些 都 是 投影 变化 的 结 
果 。 世 界 的 景象 就 像 是 一 个 拥有 无 限 分 辩 率 的 显示 | 
器 ， 而 你 就 是 观察 者 。 至 于 宇宙 牌 显示 器 的 分 辨 率 
到 底 是 不 是 无 限 的 ， 很 难说 。 冬 瓜 哥 坚信 其 每 一 个 
像素 尺寸 是 有 限 的 ， 也 就 是 一 个 空间 场 。 至 于 这 个 
场 中 有 没有 红 绿 蓝 三 个 色 片 ， 这 很 难说 。 


所 以 ， 总 结 一 下 ， 人 脑 理解 三 维 图 形 的 依据 是 : 
不 同 视角 的 投影 形状 不 同 、 图 形 上 的 轮廓 线 的 暗示 ， 
以 及 光照 明暗 度 不 同 的 暗示 。 正 因为 图 形 的 这 些 层次 
感官 ， 让 人 们 能 够 理解 三 维 世界 。 那 么 ， 一 张 静 态 
的 3D 图 片 ， 必 须 包含 轮廓 以 及 不 同 表面 的 明暗 或 者 
说 颜色 的 层次 差异 ， 否 则 它 就 成 了 图 8-128 中 1 号 图 形 
那样 。 

再 来 看 图 8-128 下 半 部 分 3D 氏 鱼 的 照片 ， 就 像 把 
一 条 真 的 钳 鱼 放 在 纸 上 一 样 。 而 当 你 知道 这 张 图 片 
是 纯 手绘 时 是 否 会 震惊 ? 但 如 果 你 看 到 了 它 被 绘制 的 
过 程 ， 你 也 许 就 明白 了 。 所 谓 3D 图 像 ， 都 是 用 2D 图 
像 加 上 对 应 的 障 眼 法 处 理 。 尤 其 是 对 光照 和 投影 的 处 
理 ， 可 以 看 到 右 数 第 二 张钰 鱼 身 下 有 一 条 细 细 的 阴 
影 ， 就 是 它 让 你 有 了 3D 的 感觉 ， 再 加 上 最 后 一 步 对 钙 
鱼 身上 反光 部 分 直接 涂抹 白色 ， 这 部 分 反光 效果 强烈 
与 你 在 现实 中 看 到 的 铠 鱼 产生 了 共鸣 ， 逼 迫 你 的 大 脑 
不 得 不 认为 这 就 是 3D 图 案 。 但 是 你 如 果 长 时 间 观 察 ， 
并 且 强 迫 让 大 脑 认为 这 些 光 王 无 非 就 是 一 些 白色 斑 
点 ， 整 个 图 像 就 是 2D 的 ， 那 么 大 脑 习惯 之 后 后 续 可 能 


明暗 处 理 ( Shade ) 光照 处 理 ( Lighting ) 


|. "| | š | 


明暗 和 着 色 处 理 ( Shade ) 光照 处 理 ( Lighting ) 
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就 会 切换 到 2D 认 知 模式 了 。 

而 对 于 3D 游 戏 而 言 ， 整 个 3D 场 景 必 须 可 以 让 玩 
家 沿 着 z 轴 纵深 方向 移动 ， 即 视角 可 以 在 360” 范 围 内 
自由 旋转 和 平移 以 及 镜头 拉 远 拉 近 СНО 。 也 可 
以 这 样 说 :你 不 动 ， 但 是 整个 3D 场 景 可 以 围 着 你 以 
360” 任 意 旋转 平移 和 缩放 。 

然而 ， 显 示 屏 上 永远 都 是 2D 画 面 ， 那 怎么 实现 视 
角 的 纵深 移动 呢 ? 答案 当然 是 根据 观察 者 所 处 的 新 视 
角 位 置 ， 将 场景 内 所 有 的 3D 模 型 重新 按照 新 的 角度 投 
影 到 屏幕 (你 的 眼睛 ) 上 ， 用 2D 投 影 的 变化 刺激 你 的 
大 脑 ， 只 要 所 有 模型 的 投影 能 够 更 加 平滑 地 变化 ， 那 
么 大 脑 根据 经 验 判断 投影 当前 的 移动 方向 和 角度 ， 就 
可 以 感知 到 这 个 投影 其 实 是 立体 的 、 有 z 轴 的 。 现 在 
你 就 可 以 做 个 实验 ， 拿 着 一 个 物体 ， 想 象 它 永远 都 是 
只 将 一 个 投影 面 朝向 你 ， 很 快 你 的 感 观 就 会 麻木 ， 一 
段 时 间 后 你 可 能 会 对 这 个 物体 感到 异常 陌生 ， 看 到 的 
只 是 一 个 轮廓 ， 但 是 你 只 要 稍微 变换 一 下 角度 观察 一 
下 它 的 侧面 ， 大 脑 便 会 根据 之 前 保存 在 大 脑 中 的 认 知 
积累 ， 根 据 两 个 投影 之 间 的 关联 分 析出 这 是 个 什么 物 
体 ， 如 图 8-129 所 示 。 


G.G 
5.8 E 


图 8-129 不 同 视角 下 的 投影 不 同 


所 以 ， 对 于 那些 平时 没有 积累 过 这 种 感官 经 验 的 
人 ， 可 能 就 无 法 体会 到 视角 的 移动 方向 和 速度 。 这 也 
正 是 为 何 有 些 人 玩 3D 游 戏 会 有 眩晕 感 的 原因 ， 他 的 大 
脑 并 不 理解 当前 空间 中 的 2D 投 影 图 形 为 什么 会 变 大 变 
小 ， 形 状 也 在 变 ， 他 无 法 或 者 说 难以 将 这 个 变化 翻译 
成 z 轴 纵深 移动 ， 于 是 大 脑 产 生 了 认 知 疲劳 。 

能 够 想象 ， 绘 图 程序 需要 根据 当前 观察 者 所 处 的 
相对 之 前 状态 的 新 视角 下 ， 对 整个 场景 中 所 有 3D 模 
型 的 顶点 坐标 重新 进行 三 维 的 坐标 变换 处 理 ， 重 新 将 
新 的 3D 坐 标 投射 到 屏幕 坐标 空间 ， 消 掉 z 轴 坐标 。 同 
时 ， 当 视角 拉 远 时 ， 物 体 在 屏幕 上 的 投影 也 要 跟着 变 
小 ， 这 牵扯 到 某 种 缩放 规则 ， 也 就 是 透视 规则 ， 需 要 
套用 透视 公式 来 运算 。 所 以 ， 这 整个 坐标 变换 的 过 程 
相 比 2D 坐 标 变换 场景 需要 更 多 的 计算 量 。 

实际 上 ， 可 以 使 用 另 一 种 方式 来 生成 3D 图 像 ， 
那 就 是 把 每 个 模型 的 从 各 个 角度 、 各 个 距离 观察 到 的 
投影 2D 图 像 全 部 保存 下 来 ， 形 成 一 张 表 ， 然 后 根据 当 
前 视角 来 查 表 找 到 与 该 视角 对 应 的 投影 然后 将 它 显示 
出 来 即 可 。 这 样 只 需要 消耗 很 少 的 运算 量 ， 但 是 却 会 
大 大 增加 存储 量 。“ 各 个 角度 ”， 到 底 精 细 到 什么 程 


Ж? 360” 细 分 一 万 份 ? 再 说 了 ， 模 型 距 观察 者 的 距 
离 也 不 同 ， 最 大 和 最 小 距离 之 间 细 分 多 少 份 ， 就 得 保 
存 多 少 个 投影 。 还 需要 加 入 角度 、 距 离 的 组 合 ， 这 样 
保存 的 投影 数量 需要 相 乘 。 另 外 还 需要 考虑 场景 中 光 
线 的 不 同 ， 等 等 ， 多 种 组 合 数量 又 得 相 乘 ， 最 终 需 要 
保存 的 投影 数量 太 过 庞大 。 所 以 这 种 方法 不 可 行 ， 除 
非 将 来 发 明 出 来 某 种 科幻 级 别 的 超级 存储 器 。 当 然 ， 
如 果 场 景 并 不 是 自由 视角 场景 ， 而 只 是 一 些 固定 角度 
的 ， 只 给 出 有 限 数量 的 视角 、 距 离 、 光 照 、 模 型 ， 而 
且 对 流畅 度 没什么 要 求 的 话 ， 完 全 可 以 利用 这 种 方 
式 来 生成 3D 图 像 。 一 些 2D 游 戏 中 就 大 量 使 用 这 种 技 
术 。 比 如 早期 《 街 霸 》 系 列 中 的 背景 动画 ， 以 一 秒 钟 
两 帧 的 速度 ， 用 有 限 数量 的 投影 走马 灯 似 地 播放 出 
来 ， 就 可 以 让 人 感受 到 3D 立 体 图 像 。 

然而 ， 现 代 3D 游 戏 的 效果 已 经 无 与 伦比 。 当 前 
的 主流 3D 泻 染 形式 就 是 根据 角度 、 距 离 、 光 照 等 输入 
条 件 ， 现 场 计 算出 对 应 模型 上 每 个 表面 、 顶 点 的 新 位 
Е. 具体 怎 么 算 ， 我 们 下 文 再 介绍 。 

思考 另外 一 个 基本 问题 ，3D 图 形 的 顶点 需要 增加 
一 个 z 坐 标 。 但 是 一 些 复杂 形状 的 物体 并 不 是 用 少量 
几 个 项 点 + 描绘 方式 就 可 以 描述 的 ， 而 2D 场 景 下 只 需 
要 知道 少量 的 顶点 坐标 即 可 描述 出 点 、 线 、 面 了 。 


8.2.5.1 3D 模 型 的 表示 


与 2D 模 型 文件 类 似 ， 为 了 生成 3D 图 像 ， 也 需要 
将 对 应 图 形 / 体 的 各 种 信息 描述 和 和 记录 下 来 ， 形 成 
3D 模 型 文件 。 我 们 说 ， 任 何 图 形 其 实 都 可 以 看 作 是 
点 的 集合 ， 把 一 个 图 形 分 隔 成 大 量 且 有 限 可 接受 数量 
的 点 ， 也 可 以 近似 描述 出 该 物体 的 形状 。 但 是 这 不 就 
成 了 bitmap 了 么 ? bitmap 是 2D 场 景 下 的 图 片 ，3D 场 景 
下 一 个 物体 占据 的 所 有 点 可 以 组 成 体 bitmap (Volume 
Bitmap) ， 但 是 这 样 的话 记 录 的 信息 量 就 太 大 了 。 那 
么 ， 用 线段 来 描述 是 否 可 以 ? 当然 可 以 ， 但 是 一 样 
会 记录 大 量 线段 的 顶点 坐标 。 其 实 ， 由 于 3D 图 像 最 
终 是 通过 投影 来 展现 的 ， 所 以 其 物体 内 部 的 点 坐标 
(又 被 称 为 体 素 (voxel) ， 相 对 于 2D 场 景 下 的 像素 
(pixel) 而 言 ) 根本 无 须 记录 ， 我 们 要 的 只 是 它 的 表 
面 信息 。 那 是 不 是 记录 物体 每 个 表面 上 的 每 个 点 就 可 
以 了 ? 这 样 需 要 记录 的 信息 量 仍然 太 大 。 

如 图 8-130 所 示 ， 最 终 ， 人 们 选择 面 元 (或 者 又 
可 以 说 面 片 ) 来 描述 3D 物 体 。 也 就 是 将 整个 3D 物 体 
的 包 右 表面 细 分 成 多 个 面 片 ， 只 要 记录 每 个 面 片 的 项 
点 坐标 以 及 哪 几 个 坐标 组 成 了 一 个 面 片 〈 也 就 是 索 
引 )》 即 可 。 图 中 的 正方 形 可 以 被 细 分 为 12 个 三 角形 面 
片 ， 如 果 分 成 6 个 矩形 /正方 形 ， 或 者 说 四 边 形 面 片 是 
否 可 以 ?可 以 ,但 是 四 边 形 可 以 被 进一步 细 分 为 两 个 
三 角形 ， 这 两 个 三 角形 可 以 不 在 同一 个 面 上 ， 能 够 表 
示 更 丰富 的 物体 表面 凹凸 细节 ， 而 四 边 形 的 面 元 只 能 
表示 一 个 面 。 所 以 人 们 采用 三 角形 来 描述 3D 物 体 的 表 
面 。 人 们 将 由 三 角形 组 成 的 表面 称 为 Mesh〈 网 格 ) 。 


T. 


图 8-130 只 要 表面 信息 而 不 需要 体 信息 
如 图 8-132 所 示 ， 那 些 更 加 复杂 、 弯 曲 的 表面 就 
需要 使 用 更 多 数量 的 三 角形 拼接 起 来 ， 曲 率 越 高 的 地 
方 ， 三 角形 的 密度 也 就 越 高 。 这 就 像 一 个 杂 波形 越 陡 


提示 
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峭 的 地 方 就 需要 越 高 频率 的 正弦 波 来 又 加 形成 一 样 。 
任何 3D 物 体 表面 都 可 以 被 细 分 为 有 限 数 量 的 三 角 
形 面 元 。 有 时 候 一 些 3D 建 模 软 件 并 不 给 出 三 角形 ， 而 
只 展示 出 四 边 形 ， 如 图 8-133 左 侧 所 示 。 这 样 做 的 目 
的 是 为 了 不 让 画面 太 繁杂 无 法 分 辨 ， 实 际 上 模型 文件 
还 是 以 三 角形 为 粒度 描述 的 。 

然而 ， 在 什么 位 置 生成 多 少 三 角形 ， 是 要 根据 模 
型 的 曲率 一 点 点 搭建 出 来 的 ， 并 不 是 说 把 一 个 图 形 分 
隔 成 三 角形 ， 其 就 成 了 3D 模 型 了 。 如 图 8-133 右 侧 所 


y 


ји 


体 素 模型 是 目前 计算 机 图 形 学 研究 的 前 沿 课题 。 该 模型 真 的 用 一 个 个 的 小 立方 体 而 不 是 面 元 来 堆砌 出 各 
种 3D 模 型 。 由 于 冬瓜 哥 并 不 专业 ， 所 以 其 具体 原理 留 给 大 家 自行 了 解 学 习 ， 如 图 8-131 所 示 。 


ФСО 


198-131 


使 用 体 素 模型 的 游戏 搭建 的 场景 
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示 ， 你 根本 不 会 觉得 这 个 图 形 是 三 维 的 ， 就 是 因为 其 
三 角形 的 分 布 没 有 梯度 ， 密 度 均 匀 ， 这 证 明 它 根本 就 
是 一 个 平整 的 2D 图 形 。 这 世界 上 永远 都 有 能 工 巧 匠 ， 
他 们 能 将 一 根 萝 卜 雕 刻 得 巧夺天工 ， 他 们 总 知道 在 什 
么 地 方 下 多 少 力度 ， 模 型 会 变 成 什么 样 。 然 而 ， 并 不 
能 要 求 每 个 计算 机 3D 模 型 设计 师 都 做 到 如 此 程度 。 所 
以 ， 建 模 的 过 程 也 需要 计算 机 来 辅助 才 可 以 。 

如 图 8-134 和 图 8-135 所 示 为 某 3D 辅 助 建 模 软件 所 
提供 的 一 些 建 模 功 能 。 设 计 师 只 需要 点 鼠标 就 可 以 编 
辑 模 型 上 的 顶点 ， 从 而 实现 各 种 表面 形状 ， 创 建 出 棚 
棚 如 生 的 3D 模 型 。 


顶点 法 向 量 调节 


创建 好 的 3D 模 型 文件 ， 会 包含 一 堆 顶 点 坐标 数 
组 、 索 引 数 组 ， 以 及 其 他 一 些 为 了 加 速 搜索 而 创建 的 
次 级 索引 的 组 合 。 如 图 8-136 所 示 ， 图 中 左 侧 为 原始 
的 记录 方式 ， 也 就 是 顶点 坐标 和 针对 每 个 三 角形 都 
记录 索引 项 目的 方式 。 这 样 做 会 占用 较 大 的 空间 。 
图 中 右 侧 给 出 了 两 种 另外 的 记录 方式 : Fan Ой) ЖП 
Strip САР 方式 。 可 以 发 现在 Mesh 中 会 包含 这 两 种 亚 
结构 。 如 果 用 点 阵 (0,1,2,3,4,5) 来 表示 图 中 的 扇 状 
Mesh 片 段 ， 用 点 阵 (0,1,2,3,4,5,6,7) 来 表示 右 侧 的 带 
状 Mesh 片 段 ， 这 样 ， 当 某 个 模型 三 角形 数量 庞大 时 ， 
就 可 以 节省 大 量 的 存储 空间 。 


基础 建 模 辅助 


Mesh 平 均 化 


verts[0] [ x yyyzZo 
меп] | xy) 
verts[2] | х»у>2› 
verts[3] | 3,y3,23 


чойо [ 0,2,7 
Чиа] | 0,3,2 
tind[2] | 10,2,3 
tind[3] | 2,10,7 


硬化 边 和 软化 边 


6,9,0,3,2,10,7 


提示 > 


描述 每 个 面 片 的 索引 必须 按照 顺 时 针 或 者 逆 时 
针 有 顺序 来 记录 该 面 元 的 顶点 。 虽 然 不 按照 顺序 也 一 
样 可 以 描述 一 个 面 元 ， 但 是 在 后 文中 大 家 会 看 到 系 
统 可 以 根据 面 元 顶点 是 逆 时 针 还 是 顺 时 针 ， 判 断 出 
面 元 当前 是 朝向 屏幕 还 是 背 对 屏幕 ， 从 而 将 背面 被 
挡住 的 面 元 直接 删除 挤 ， 不 泻 染 。 


当然 ， 模 型 中 还 可 以 一 同 附带 上 《也 可 以 单独 
用 其 他 文件 存储 ) 物体 表面 的 图 案 ， 比 如 皮肤 图 片 、 
金属 图 片 、 树 叶 图 片 、 木 纹 图 片 等 ， 以 及 附着 在 这 
些 图 案 上 的 用 于 对 物体 表面 的 光照 效果 产生 影响 的 
信息 。 这 些 图 案 被 称 为 颜色 纹理 (Color Texture) ~ 
Color Map， 或 者 Diffuse Map， 或 者 又 被 俗称 为 贴图 
(Map) 。 贴 图 其 实 是 一 个 动词 ， 其 不 仅 指 将 一 个 
bitmap 图 案 附着 在 物体 表面 的 过 程 ， 还 指 将 一 些 光 照 
处 理 效 果 〈 被 称 为 几何 纹理 ，Geometry Texture) 应 
用 到 物体 表面 ， 从 而 让 物体 表面 产生 逼真 的 细节 比 
如 凹凸 、 明 暗 分离 等 效果 。 所 以 ， 附 着 颜色 纹理 和 
几何 纹理 的 过 程 称 为 Map( 映 射 》， 或 者 说 纹理 映射 
(Texture Mapping) ， 继 而 被 俗称 为 贴图 。 颜 色 纹理 
(也 被 俗称 贴图 ， 名 词 》、 几 何 纹理 被 统称 为 材质 
(Material) 。 其 中 “ 材 ” 体 现 为 bitmap 图 案 ， 也 就 是 
原始 素材 ， 泛 指 颜 色 纹理 ; “ 质 ” 体 现 为 各 种 不 同 的 
凹凸 对 光纤 的 反射 效果 ， 体 现 为 物体 表面 体现 出 来 的 
各 种 质感 ， 泛 指 几 何 纹理 。 几 何 纹理 又 包含 一 种 叫 作 
过 程 纹理 (Procedure Texture) 的 技术 。 我 们 会 在 下 文 
中 详细 介绍 各 种 不 同 的 纹理 映射 方式 和 效果 ， 下 文中 
也 用 贴图 来 指 代 颜 色 纹理 。 

不 同 建 模 工 具 生成 的 模型 文件 所 包含 的 信息 可 能 
也 各 不 相同 ， 那 些 没有 包含 的 信息 就 需要 程序 载 入 模 
型 之 后 动态 计算 出 来 。 有 些 模型 文件 甚至 包含 了 本 模 
型 的 动画 信息 。 绘 图 主 程序 需要 采用 对 应 的 模型 载 入 
程序 来 载 入 、 分 析 模型 文件 中 所 描述 的 信息 ， 并 最 终 
将 顶点 、 材 质 等 数据 载 入 对 应 的 缓冲 区 ， 完 成 对 模型 
的 载 入 工作 ， 然 后 进入 演 染 流程 。3D 模 型 文件 的 具体 
格式 和 记录 组 织 方式 大 家 可 以 自行 了 解 。 


8.2.5.2 项 点 的 4 个 基本 属性 


每 个 顶点 有 坐标 、 颜 色 、 法 向 量 和 纹理 坐标 4 种 
属性 信息 ， 其 都 被 放置 在 Vertex Buffer 中 。 如 果 采 用 
CPU 来 泻 染 ， 则 Vertex Buffer 位 于 Host ВАМ; 如果 
采用 外 部 图 形 加 速 卡 来 运算 ， 那 Vertex Buffer 就 放 在 
显存 中 。 

顶点 坐标 СУецех Coordinate) 。 即 每 个 顶点 的 三 
维 坐标 ， 这 个 没什么 好 说 的 。 

颜色 (Vertex Color) 。 即 每 个 顶点 的 颜色 。 这 个 
有 点 怪异 ， 顶 点 为 什么 需要 有 颜色 ? 这 是 为 了 那些 比 
较 简单 的 泻 染 场景 准备 的 。 有 些 时 候 并 不 想 指定 每 个 
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像素 的 颜色 ， 因 为 这 样 会 耗费 很 多 资源 ， 比 如 将 一 张 
bitmap 贴 到 面 元 上 ， 会 耗费 用 于 存放 贴图 的 存储 器 。 
人 们 开始 的 设想 是 ， 既 然 由 无 限 的 点 组 成 的 表面 都 可 
以 简化 为 三 角形 面 片 来 描述 ， 为 什么 不 能 把 每 个 点 的 
颜色 也 简化 为 只 用 面 片 的 顶点 颜色 来 近似 描述 呢 ? 所 
以 ， 只 要 指定 三 角形 三 个 顶点 的 颜色 ， 然 后 由 程序 根 
据 项 点 颜色 算出 每 个 像素 的 过 渡 色 ， 具 体 就 是 根据 三 
角形 内 部 每 一 条 线 跨 过 的 像素 数量 ， 以 及 该 线 两 个 端 
点 处 的 颜色 值 ， 算 出 一 个 梯度 ， 然 后 向 对 应 像素 写 入 
算 好 的 颜色 值 即 可 。 还 记得 这 种 处 理 方式 么 ? 这 叫 作 
插值 处 理 。 如 图 8-137 所 示 为 三 个 顶点 颜色 分 别 为 红 
黄 绿 时 ， 插 值 之 后 的 各 像素 颜色 。 实 际 中 程序 可 以 根 
据 美术 /美工 人 员 的 原画 颜色 翻译 成 项 点 颜色 。 比 如 
某 个 面 元 为 纯 红色 ， 那 三 个 顶点 的 颜色 就 都 需要 被 指 
定 为 红色 。 与 2D 图 形 演 染 时 类 似 ，2D 矢 量 图 演 染 之 
后 对 颜色 的 表现 力 太 单调 ，3D 插 值 着 色 也 面临 同样 的 
感 观 。 要 想 表达 更 加 真实 的 世界 ， 那 就 必须 为 每 个 像 
素 单独 着 色 ， 最 简单 的 莫 过 于 直接 使 用 bitmap 贴 图 着 
色 了 。 


48-137 面 元 中 像素 的 颜色 可 以 由 顶点 颜色 插值 过 渡 得 到 


法 向 量 (Normal) 。 模 型 中 每 个 三 角形 的 每 个 面 
的 朝向 可 能 各 不 相同 ， 这 样 ， 在 进行 光照 处 理 时 ， 每 
个 面 朝向 光源 的 角度 不 同 ， 其 对 光线 的 反射 率 和 反射 
角度 也 就 各 不 相同 ， 反 射 到 观察 者 视角 处 的 光线 ， 会 
导致 观察 者 会 认为 这 个 面 是 发 亮 的 ， 表 面 正 对 着 观察 
者 时 是 最 亮 的 ， 而 表面 斜 对 着 一 定 角度 时 则 亮度 越 来 
越 低 。 光 照 计算 就 是 利用 观察 者 、 光 源 方向 、 模 型 的 
面 元 朝向 这 三 者 共同 作为 输入 ， 按 照 一 定 的 规则 计算 
出 每 个 面 甚 至 每 个 点 的 亮度 系数 ， 并 将 该 系数 与 对 应 
像素 的 颜色 值 相 乘 得 出 新 的 像素 值 ， 新 像素 会 体现 出 
不 同 的 亮度 ， 这 样 就 可 以 让 人 分 辨 出 物体 表面 的 3D 感 
了 。 面 片 的 朝向 使 用 面 片 法 向 量 来 表示 ， 法 向 量 可 以 
根据 该 面 的 三 个 项 点 坐标 很 容易 地 计算 出 来 。 然 而 ， 
如 果 一 个 模型 制作 得 比较 粗糙 ， 三 角形 数量 较 少 ， 那 
么 模型 表面 就 是 大 块 的 面 元 ， 此 时 光照 计算 完成 之 
后 ， 整 个 模型 如 感官 会 很 差 ， 如 图 8-132 左 侧 的 贝多 
芬 头 像 所 示 。 

为 了 实现 更 平滑 的 物体 表面 效果 ， 要 么 提升 模型 
精细 度 ， 比 如 弄 上 他 一 百 万 个 三 角形 ， 然 后 依然 根据 
面 法 线 来 处 理光 照 ， 但 是 这 样 开销 太 大 ;人 们 想 出 另 
一 种 方式 ， 也 就 是 以 顶点 为 基准 点 ， 计 算 顶 点 自身 的 
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亮度 ， 然 后 通过 插值 梯度 来 算出 顶点 周围 的 像素 的 亮 
度 ， 这 样 会 在 一 定 程度 上 掩盖 每 个 面 的 方向 大 幅 起 落 
导致 的 亮度 差异 ， 从 而 让 物体 表面 看 上 去 更 平缓 。 所 
以 ， 需 要 为 每 个 顶点 算出 一 个 法 向 量 ， 顶 点 的 法 向 量 
是 它 所 处 的 所 有 平面 的 法 向 量 之 和 。 虽 然 我 们 可 能 已 
经 忘记 了 高 中 数学 课 上 所 学 的 向 量 计算 规则 ， 但 是 至 
少 还 记得 初中 物理 课程 中 的 合力 计算 规则 吧 ， 原 理 是 
一 样 的 ， 如 图 8-138 所 示 。 

使 用 面 法 向 量 和 项 点 法 向 量 针对 同一 个 模型 计算 
的 光照 效果 如 图 8-139 所 示 。 可 以 明显 看 到 左 侧 的 模 
型 面 片 的 棱角 比较 明显 ， 而 右 侧 则 很 圆滑 。 感 觉 有 点 
不 可 思议 ， 通 过 光照 处 理 就 能 让 一 个 模型 看 上 去 像 是 
用 更 多 三 角形 精细 拼接 的 。 是 的 ， 这 一 切 其 实 都 是 假 
的 ， 属 于 一 种 障 眼 法 。 还 记得 上 文中 介绍 过 的 么 ， 如 
果 没 有 光照 信息 ， 投 影 到 2D 平 面 上 的 3D 模 型 看 上 去 
只 是 一 个 轮廓 而 已 〈 见 图 8-128 左 侧 ) ， 完 全 分 辩 不 
出 表面 的 位 置 不 同 ， 纵 使 该 模型 表面 拥有 百 万 个 三 角 
形 。 那 么 ， 只 要 能 够 把 看 上 去 像 是 光滑 表面 的 光照 处 
理 方式 应 用 到 该 表面 ， 谁 又 能 分 清楚 或 者 在 乎 这 个 模 
型 在 3D 世 界 中 到 底 是 由 多 少 个 三 角形 拼接 而 成 的 呢 ? 

这 样 说 来 ， 不 用 3D 模 型 ， 只 在 一 个 平面 上 ， 只 
要 投 出 不 同 的 光照 效果 ， 也 可 以 让 人 感觉 该 面 是 个 3D 
图 形 ? 没 错 。 如 图 8-140 所 示 ， 图 左 侧 为 真 模型 ， 图 
右 侧 为 对 应 的 在 一 个 平面 上 通过 光照 障 眼 法 实现 的 效 
果 ， 该 效果 被 称 为 法 向 纹理 映射 〈 俗 称 法 向 贴图 ) 。 
如 果 左 侧 的 模型 没有 被 投 出 阴影 的 话 ， 那 你 基本 上 无 
法 分 辨 两 者 的 区 别 〈 当 然 ， 还 是 有 所 区 别 的 ， 可 以 看 
到 真 模型 中 每 个 物体 的 反射 光 会 局 部 照 亮 其 他 物体 ， 
如 图 中 括号 指向 的 部 分 所 示 。 这 个 效果 可 以 用 光线 追 
了 踪 技术 做 到 ) 。 也 正 是 由 于 阴影 的 产生 ， 让 人 脑 更 加 
坚信 左 侧 相 比 右 侧 更 像 是 具有 z 轴 的 3D 模 型 。 我 们 下 


Пау, 
пу # 


文中 将 要 介绍 的 那些 将 不 同 的 纹理 映射 方式 应 用 在 模 
型 表面 的 过 程 ， 其 实 都 是 一 种 障 眼 法 。 可 以 说 整个 3D 
图 形 的 后 期 处 理 全 都 是 障 眼 法 。 


图 8-140 ”法 线 贴图 的 效果 


跑题 了 ， 我 们 再 说 回来 。 所 以 ， 法 向 量 是 项 点 具 
有 的 一 个 属性 ， 在 3D 模 型 文件 中 可 以 预先 算 好 法 向 量 
并 保存 到 文件 中 。 如 果 没有 预先 算 好 法 向 量 ， 那 么 需 
要 由 绘图 程序 载 入 模型 之 后 ， 根 据 项 点 坐标 位 置 算出 
顶点 法 向 量 。 

纹理 坐标 。 前 文中 提 到 过 ， 给 面 片上 色 的 最 便 
捷 方 法 就 是 直接 贴图 ， 也 就 是 直接 贴 上 别人 已 经 画 好 
的 墙纸 ， 而 不 是 去 找 画家 来 徒手 作画 ， 虽 然后 者 格调 
更 高 。 贴 墙纸 ， 自 然 要 量 好 墙 面 的 尺寸 ， 然 后 定做 相 
同 尺寸 的 墙纸 ， 贴 图 也 是 一 样 。 但 是 一 个 模型 有 太 多 
的 面 元 ， 如 果 要 为 每 个 面 元 裁剪 出 刚好 贴 合 尺 寸 的 
bitmap 贴 图 ， 这 也 不 现实 。 为 此 ， 人 们 直接 使 用 一 张 
方形 的 bitmap， 上 面 存 有 一 种 或 者 多 种 不 同 的 图 案 ， 
要 为 哪个 面 元 贴 上 哪个 图 案 ， 就 从 中 将 图 案 剪 切 出 来 
贴 上 即 可 。 

道理 说 得 挺 容易 ， 但 是 针对 每 个 待 贴图 的 面 元 ， 
要 从 bitmap 中 的 哪里 开始 剪 ， 或 者 说 截取 呢 ? 所 以 ， 
每 个 项 点 属性 中 需要 记录 该 项 点 对 应 着 贴图 /纹理 
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图 8-139 ”使 用 面 法 向 量 和 项 点 法 向 量 光照 处 理 的 效果 差异 
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标 空间 进行 区 分 ， 人 们 将 纹理 坐标 空间 的 横 纵 坐标 
轴 定 义 为 U 和 V) 。 对 于 一 个 三 角形 ， 三 个 顶点 各 自 
映射 到 bitmap 中 的 三 个 坐标 ， 那 么 bitmap 中 的 这 三 个 
坐标 点 组 成 的 面 元 ， 就 是 要 被 贴 到 模型 表面 的 部 分 
了 。 如 图 8-141 所 示 ， 只 要 根据 顶点 属性 中 保存 的 纹 
理 坐 标 ， 到 纹理 bitmap 中 对 应 的 纹理 坐标 处 将 对 应 的 
ЖЖ (Texel， 相 对 Pixel 而 言 ， 或 又 称 图 素 ) 颜色 值 
复制 出 来 ， 到 Frame Buffer 中 对 应 模型 面 元 的 像素 位 
置 即 可 。 这 个 过 程 被 称 为 纹理 采样 。 面 元 中 其 他 像素 
点 对 应 的 纹理 坐标 无 须 记 录 ， 可 以 根据 顶点 坐标 计算 
出 来 。 

图 中 的 纹理 bitmap 左 下 角 的 浅黄 色 图 案 ， 被 贴 到 
了 模型 左上 角 的 面 元 上 ， 纹 理 右 下 角 图 案 被 贴 到 了 模 
型 最 顶端 的 面 元 。 可 以 明显 看 到 这 两 个 被 贴 到 模型 上 
的 图 案 要 比 纹理 bitmap 原 始 图 案 更 亮 ， 为 什么 呢 ? 别 
忘 了 ， 该 模型 是 有 光照 的 。 上 文中 介绍 过 ， 程 序 需要 
根据 顶点 或 者 面 法 向 量 以 及 光源 的 种 类 和 所 处 位 置 计 
算出 每 个 面 元 像素 的 亮度 系数 ， 那 么 ， 贴 图 的 过 程 其 
实 是 纹理 采样 的 过 程 ， 也 就 是 将 纹理 坐标 处 对 应 的 纹 
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素颜 色 值 复制 到 对 应 的 像素 所 在 的 显存 地 址 上 ， 这 个 
过 程 中 需要 将 像素 值 与 该 像素 的 亮度 系数 进行 调制 ， 
也 就 是 相 乘 ， 最 终 的 效果 就 相当 于 灯光 照 亮 了 贴 有 这 
个 图 案 的 像素 。 同 理 可 得 ， 背 对 光源 方向 上 的 面 元 的 
像素 亮度 就 要 更 暗 一 些 ， 如 图 中 水 滴 图 案 所 示 。 

那么 ， 现 实 中 的 模型 和 贴图 是 什么 样 ， 又 是 怎么 
制作 出 来 的 呢 ? 如 图 8-142 所 示 为 一 个 人 物 头 部 模型 
和 贴图 ， 以 及 一 个 人 物 的 全 身 模型 及 贴图 。 可 以 看 到 
贴图 尺寸 一 般 都 是 方形 的 。 图 中 最 左 侧 贴 图 中 的 Mesh 
格 线 是 为 了 示意 而 加 上 去 的 ， 真 实 贴图 中 并 不 存在 。 
那么 ， 设 计 师 们 最 终 是 怎么 把 纹理 图 片 坐标 精确 映射 
到 顶点 坐标 上 的 呢 ? 换 句 话说 ， 裁 颖 到 底 是 怎么 根据 
身体 模型 做 出 严 丝 合 颖 的 衣服 来 的 呢 ? 

观察 图 8-142 左 侧 可 以 看 出 ， 最 左边 图 中 的 Mesh 
网 格 ， 其 实 就 是 将 模型 的 3D 网 格 展开 到 2D 平 面 上 的 
结果 ， 相 当 于 把 模型 的 外 表皮 揭 下 来 平 铺 到 桌面 上 。 
这 个 过 程 被 称 为 模型 的 UV 展开 。 这 个 过 程 当然 是 需 
要 计算 的 ， 该 计算 并 非 简单 地 将 3D 曲 面 投影 到 2D 面 
上 ， 这 就 像 你 把 一 个 曲面 纸 片 按 平 到 桌面 上 ， 它 的 轮 
廓 会 被 延展 开 变 大 ， 而 并 非 简单 的 投影 。 
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图 8-141 ”贴图 过 程 示意 图 


图 8-142 


实际 中 的 模型 和 纹理 贴图 (1) 
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然后 美工 设计 人 员 会 在 2D 平 面 内 绘制 对 应 的 图 
案 ， 将 这 些 图 案 严格 按照 UV 坐标 位 置 对 准 ， 制 作 好 
之 后 ， 记 录 下 模型 顶点 坐标 〈 已 被 平 铺 在 平面 上 ) 
下 方 的 图 案 UV 坐 标 ， 也 就 完成 了 顶点 纹理 坐标 的 映 
射 。 如 图 8-143 所 示 为 在 UV 展开 后 的 Mesh 网 格 参考 线 


下 严格 绘制 图 片 。 
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一 些 角度 。 


现在 思考 一 个 问题 。 如 图 8-145 所 示 模 型 或 者 说 
面 元 ， 在 屏幕 上 的 投影 是 跟随 观察 视角 不 断 变化 的 ， 
比如 将 视角 镜头 拉 远 ， 那 么 一 个 模型 的 面 元 会 不 断 等 
比例 缩小 ， 一 直到 8 个 点 、4 个 点 ， 最 后 缩小 成 一 个 像 


图 8-144 ”实际 
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图 8-143 UV 展开 以 及 严格 按照 模型 Mesh 贴 合 贴 图 

如 图 8-144 所 示 为 一 个 人 物 模 型 和 一 个 人 物 脸 部 
模型 以 及 对 应 的 纹理 图 案 。 这 些 图 案 口味 都 比较 重 ， 
不 过 ， 这 正 是 设计 师 们 天 天 面 对 的 东西 。 右 侧 脸 部 纹 
理 有 些 牌 曲 不 对 称 ， 是 因为 在 UV 铺 开 的 时 候 设 定 了 


素 点 。 那 么 在 缩小 过 程 中 ， 到 底 将 图 案 中 的 哪些 纹 素 
点 选 出 来 或 者 勾兑 出 来 复制 到 屏幕 像素 点 上 ? 如 果 将 
视角 拉 近 ， 那 么 此 时 整个 屏幕 都 会 布 满 该 图 案 。 如 果 
该 图 案 自身 的 分 辩 率 低 于 屏幕 分 辨 率 ， 此 时 应 该 怎么 
办 ? 将 视角 进行 旋转 ， 该 面 元 或 者 直接 被 挡住， 或 者 
被 转 到 侧面 ， 这 个 过 程 中 ， 其 形状 也 会 不 断 地 、 不 成 
比例 地 (因为 视角 现在 是 在 旋转 ) 缩小 直到 成 为 一 条 
直线 ， 然 后 被 挡住 ， 消 失 在 视野 中 。 显 然 ， 贴 图 也 需 
要 跟随 着 一 起 变形 、 扭 曲 、 放 大 、 缩 小 ， 而 这 个 过 程 
中 如 果 不 加 处 理 ， 这 会 导致 贴图 严重 失真 。 我 们 将 在 
着 色 和 纹理 映射 一 节 中 给 出 详细 介绍 。 


在 明白 了 顶点 的 各 种 属性 之 后 ， 我 们 再 来 看 一 
下 3D 模 型 文件 中 都 有 些 什么 。 下 文 为 一 个 obj 格 式 
的 模型 文件 中 记录 内 容 ， 其 为 一 个 正方 体 模型 。 
其 中 v 表 示 Vertex， 也 就 是 顶点 坐标 ， 每 个 坐标 以 V 
字符 开头 ， 跟 着 三 个 坐标 值 。vt 表 示 Vertex Texture 
Coordinate， 记 录 对 应 顶点 的 纹理 坐标 值 。Vn 表 
示 Vertex Normal， 即 顶点 法 向 量 。Usemtl 表 示 Use 
Material， 给 出 了 对 应 的 纹理 图 片 文件 名 。F 表 示 
Fragment， 即 面 元 ， 记 录 了 哪 几 个 顶点 组 成 了 三 角 
形 ， 相 当 于 索引 。 这 样 看 来 ，3D 模 型 文件 中 无 非 就 
是 一 些 坐 标 值 罢 了 。 但 是 就 这 样 一 个 文件 ， 需 要 用 
3D 建 模 软 件 进行 大 量 的 调节 和 优化 而 得 到 。 

v 1.000000 -1.000000 -1.000000 v 
1.000000 -1.000000 1.000000 v -1.000000 
-1.000000 1.000000 v -1.000000 -1.000000 
-1.000000 v 1.000000 1.000000 -1.000000 


图 8-145 ”模型 位 置 变化 后 贴图 应 该 如 何 处 理 


v 0.999999 1.000000 1.000001 v -1.000000 
1.000000 1.000000 v -1.000000 1.000000 
-1.000000 

МЕ 0.748573 0.750412 vt 0.749279 0.501284 
УЕ 0.999110 0.501077 vt 0.999455 0.750380 
vt 0.250471 0.500702 vt 0.249682 0.749677 
УЕ 0.001085 0.750380 vt 0.001517 0.499994 vt 
0.499422 0.500239 vt 0.500149 0.750166 vt 
0.748355 0.998230 vt 0.500193 0.998728 vt 
0.498993 0.250415 vt 0.748953 0.250920 

vn 0.000000 0.000000 -1.000000 vn 
-1.000000 -0.000000 -0.000000 vn -0.000000 
-0.000000 1.000000 vn -0.000001 0.000000 
1.000000 vn 1.000000 -0.000000 0.000000 
уп 1.000000 0.000000 0.000001 vn 0.000000 
1.000000 -0.000000 vn -0.000000 -1.000000 
0.000000 

usemtl Material_ray.png 

s off 

£ 5/1/1 1/271 4/3/1 Е 5/1/1 4/3/1 8/4/1 
Е 37572 7/6/2 8/7/2 Е 3/5/2 8/7/2 4/8/2 Е 
2/9/3 6/10/3 3/5/3 Е 6/10/4 7/6/4 3/5/4 Е 
1/2/5 5/1/5 2/9/5 Е 5/1/6 6/10/6 2/9/6 Е 
5/1/7 8/11/7 6/10/7 f 8/11/7 7/12/7 6/10/7 Е 
1/2/8 2/9/8 3/13/8 Е 1/2/8 3/13/8 4/14/8 


试想 ， 在 玩 FPS (First Point Shooting， 第 一 人 称 
射击 ) 3D 游 戏 时 ， 鼠 标 旋 转 了 一 下 ， 或 者 角色 向 前 移 
动 了 一 下 ， 整 个 场景 中 的 模型 都 要 跟随 变化 。 所 以 ， 
场景 每 变化 一 次 ， 就 是 一 帧 ， 每 一 帧 都 要 重新 贴图 。 
那么 ， 当 视角 变化 之 后 ， 模 型 应 该 做 怎样 的 变化 呢 ? 
我 们 就 带 着 这 个 问题 ， 来 探索 3D 图 形 从 模型 到 像素 的 
整 条 处 理 路 径 。 


8.2.6 ”3D 图形 泻 染 流程 


思考 上 面 的 那个 问题 ， 隐 约会 觉得 模型 的 全 部 顶 
点 坐标 一 定 要 跟着 一 起 变化 ， 之 后 ， 贴 图 也 按照 对 应 
比例 缩放 、 旋 转 、 扭 曲 ， 贴 到 模型 表面 ， 还 得 计算 一 
下 光照 从 而 给 不 同 像素 以 不 同 的 亮度 ， 新 一 帧 的 图 像 
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就 可 以 出 炉 了 。 这 个 过 程 看 似 简单 ， 其 实 每 一 步 都 牵 
扯 复杂 的 考虑 和 计算 。 下 面 我 们 就 来 一 步 步 介绍 。 


8.2.6.1 顶点 坐标 变换 阶段 /Vertex Transform 


顶点 坐标 变换 的 过 程 共 分 为 6 步 。 

第 1 步 : 模型 坐标 空间 到 世界 坐标 空间 的 转换 。 
每 个 模型 都 是 以 自己 为 中 心 给 出 所 有 顶点 在 自己 坐标 
空间 中 的 坐标 值 的 。 而 绘图 程序 载 入 多 个 模型 的 顶点 
到 缓冲 区 中 时 ， 根 据 场景 设计 ， 每 个 模型 在 这 个 统一 
的 世界 坐标 空间 中 所 处 的 位 置 不 同 、 角 度 不 同 ， 有 些 
模型 可 能 要 整体 旋转 一 定 角度 被 放置 进去 ， 或 者 需要 
整体 缩小 到 某 个 比例 ， 如 图 8-146 所 示 。 所 以 ， 绘 图 
程序 需要 将 每 个 模型 的 项 点 ， 相 对 于 该 世界 坐标 空间 
的 原点 ， 分 别 做 (如 果 需 要 的 话 ) 平移 转换 、 旋 转 转 
换 、 缩 放 转 换 。 这 一 步 需 要 将 每 个 顶点 坐标 与 一 个 转 
换 矩 阵 相 乘 〈 详 见 下 文 ) ， 如 图 8-146 所 示 。 这 些 矩 
阵 中 的 值 需要 根据 当前 的 场景 设计 以 及 模型 将 要 被 摆 
放 的 位 置 精确 设 定 好 。 这 些 用 于 从 模型 坐标 空间 到 
世界 坐标 空间 转换 的 矩阵 被 称 为 世界 空间 坐标 矩阵 
(World Matrix) 。 

36225: 世界 坐标 空间 到 观察 坐标 空间 的 转换 。 
既然 FPS 游 戏 允 许 玩家 游 走 于 世界 坐标 空间 的 任意 位 
置 和 角度 ， 那 么 当 玩家 以 某 个 角度 观察 场景 中 的 模型 
时 ， 绘 图 程序 就 需要 按照 观察 者 的 视角 来 为 观察 者 
重新 摆 放 这 些 物体 到 它 的 坐标 空间 中 ， 如 图 8-147 所 
示 。 这 个 重新 “ 摆 放 ”的 过 程 其 实 就 是 将 世界 坐标 中 
所 有 的 顶点 坐标 再 次 与 一 组 相对 世界 坐标 原点 的 平 
移 、 旋 转 矩 阵 相 乘 的 过 程 。 这 些 用 于 从 世界 坐标 空 
间 到 观察 坐标 空间 转换 的 矩阵 被 称 为 观察 坐标 和 矩阵 
(View Matrix) 。 单 纯 的 观察 坐标 空间 转换 不 牵扯 对 
模型 进行 缩放 ， 除 非 有 意 为 之 ， 比 如 当 玩 家 越 远 离 某 
个 物体 时 ， 故 意 让 该 物体 变 大 或 者 变 小 ， 以 实现 一 些 
游戏 设计 的 特殊 效果 。 

然而 ， 玩 家 的 视野 总 是 有 限 的 ， 有 些 游戏 中 可 以 
让 玩家 调节 在 屏幕 上 显示 的 整个 场景 的 视野 ， 也 就 是 
Field of View (FoV) 。FoV 调 节 得 越 高 ， 屏 幕 上 要 
纳入 泻 染 的 模型 也 就 越 多 ， 当 然 ， 远 处 的 模型 也 会 越 
小 ， 如 图 8-148 所 示 。 

那么 ， 在 观察 者 坐标 系 中 ， 就 没有 必要 把 那些 
位 于 视野 之 外 的 物体 顶点 坐标 放 入 顶点 缓冲 中 ， 因 为 
根本 不 需要 泻 染 这些 物 体 。 此 外 ， 离 观察 者 太 近 的 物 


ав LT 


"x 


图 8-146 ”模型 坐标 空间 到 世界 坐标 空间 的 转换 
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图 8-148 Field of View 


体会 无 限 大 ， 所 以 要 将 其 去 除 掉 。 虽 然 在 游戏 中 你 也 
曾 遇 到 过 走向 一 堵 墙 ， 这 堵 墙 占 满 了 你 的 屏幕 ， 但 这 
并 不 是 无 限 大 ， 在 观察 者 坐标 空间 中 ， 这 堵 墙 模型 离 
观察 者 其 实 是 有 一 段 距 离 的 。 而 太 过 远离 观察 者 的 物 
体 ， 也 需要 被 去 除 ， 因 为 它们 已 经 看 不 见 了 。 

这 样 ， 整 个 坐标 空间 中 只 有 一 部 分 距离 范围 
内 的 物体 会 被 泻 染 。 如 图 8-149 所 示 ， 由 于 视野 是 
个 锥 形 空间 ， 这 个 可 视 空 间 被 称 为 视 锥 体 (View 
Frustrum) 。 距 离 小 于 视 锥 体 近 平面 或 者 超过 视 锥 体 
远 平 面 的 物体 都 会 被 去 除 。 有 些 模型 会 有 一 部 分 位 于 
椎 体内 部 ， 这 些 模 型 不 能 被 去 除 ， 对 于 这 些 物体 位 于 
视野 外 的 部 分 ， 后 续 再 做 处 理 。 这 个 将 不 需要 泻 染 的 
模型 顶点 从 顶点 缓冲 区 去 除 的 过 程 ， 被 称 为 剔除 /拣选 


C Culling) 。 视 锥 体 的 近 平面 就 是 屏幕 ， 所 有 视 锥 体 
内 部 的 模型 最 终 都 会 投影 到 屏幕 上 的 x、y 坐 标 系 中 ， 
但 是 注意 ， 其 并 不 是 沿 z 轴 垂直 投影 ， 而 是 要 进行 透 
视 校正 投影 ， 见 下 文 第 三 步 的 描述 。 

那么 你 可 能 自然 会 想到 ， 既 然 观察 者 视角 在 这 
一 步 中 已经 确定 ， 那 么 那些 被 前 面 物体 挡住 的 面 元 ， 
也 无 须 泻 染 。 是 的 。 假 设 某 个 模型 的 表面 是 完全 封闭 
的 ， 没 有 开放 空间 ， 比 如 镁 空 之 类 ， 那 么 程序 可 以 通 
过 与 每 个 面 的 法 向 量 的 夹 角 来 获知 该 面 是 朝向 观察 者 
还 是 背 对 观察 者 。 也 就 是 说 ， 如 果 一 个 面 元 的 顶点 顺 
序 为 顺 时 针 ， 则 该 面 朝向 观察 者 ， 如 果 是 逆 时 针 ， 则 
该 面 背 对 观察 者 (到 底 是 顺 时 针 还 是 逆 时 针 被 判断 为 
朝向 观察 者 ， 需 要 程序 根据 模型 中 的 索引 信息 来 设 定 
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好 ， 这 一 点 并 无 强制 规定 ) ， 如 图 8-150 左 侧 正方 体 
所 示 。 

但 是 对 于 那些 非 全 封闭 物体 ， 或 者 由 多 个 子 物 
体 组 合 起 来 的 物体 ， 如 图 中 右 侧 的 三 个 物体 所 示 ， 它 
们 的 其 中 某 个 表面 并 不 算是 “背面 ”， 但 是 仍然 被 
遮挡 住 了 全 部 或 者 部 分 。 要 想 消 除 这 种 表面 ， 就 需 
要 用 其 他 的 一 些 算法 ， 比 如 Depth Sort. Binary Space 
Partition、Z-buffer、Warnock、Scan Line 等 ， 这 里 具 
体 不 多 介绍 了 。 

另外 ， 如 果 该 模型 将 要 被 加 以 透明 效果 ， 也 就 是 
位 于 其 前 表面 后 方 的 物体 会 透 过 来 的 话 ， 就 不 能 使 用 
背面 消除 ， 否 则 观察 者 将 会 看 到 该 物体 缺 了 后 表面 ， 
这 不 真实 。 

位 于 视 锥 体 之 外 的 模型 剔除 的 过 程 被 称 为 View 
Culling， 模 型 的 背面 消除 则 被 称 为 Backface Culling。 

第 3 步 ， 归 一 化 坐标 空间 转换 。 物 体 模型 坐标 使 
用 的 都 是 浮 点 数 ， 为 了 统一 ， 将 整个 3D 世 界 坐标 系 缩 
放 到 一 个 坐落 在 坐标 原点 、 边 长 为 1 的 正方 体内 ， 任 
何 模型 的 顶点 坐标 值 都 小 于 1。 这 个 过 程 被 称 为 归 一 
化 (Normalizing) 。 

第 4 步 : 观察 坐标 空间 到 透视 坐标 空间 的 转换 。 
观察 者 观察 一 个 场景 的 时 候 ， 透 视 原理 会 产生 作用 ， 
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原理 观察 者 的 物体 会 缩小 ， 靠 近 的 则 会 相对 较 大 。 如 
图 8-151 左 侧 所 示 为 透视 原理 作用 之 后 的 画面 。 而 右 
侧 所 示 则 为 没有 应 用 透视 原理 ， 这 导致 所 有 模型 按照 
之 前 的 大 小 被 放置 在 眼前 ， 非 常 突 元 ， 无 法 让 人 脑 产 
生 这 几 个 物体 是 位 于 不 同 距离 的 感觉 。 

所 以 ， 这 一 步 需 要 对 观察 者 坐标 系 中 所 有 的 模 
型 ， 按 照 透 视 原 理 的 计算 方式 做 对 应 的 缩放 ， 最 终 体 
现 为 将 所 有 模型 的 顶点 坐标 与 一 个 根据 当前 观察 者 视 
角 视 锥 体 而 设 定好 的 透视 矩阵 (Projection Matrix) АН 
乘 ， 如 图 8-152 和 图 8-153 所 示 。 至 于 透视 矩阵 中 各 参 
数 的 值 ， 不 多 介绍 ， 大 家 可 以 自行 了 解 透视 原理 背后 
的 数学 描述 。 

这 一 步 结束 之 后 ， 整 个 3D 空 间 的 模型 将 被 以 透视 
算法 校正 之 后 的 方式 投影 到 视 锥 体 近 平面 ， 也 就 是 2D 
坐标 系 中 。 所 谓 “ 投 影 ”， 对 应 着 计算 机 的 哪 一 步 动 
fE? 换 名 话说， 投影 ， 对 应 到 底层 ， 就 是 把 所 有 模型 
顶点 坐标 的 x 和 y 的 值 计 算 成 符合 人 脑 对 透视 的 感 观 认 
知 的 值 ， 也 就 是 进行 透视 比例 变换 ， 而 z 值 也 同样 。 
所 以 ， 并 没有 所 谓 “投影 ”这 个 动作 ， 存 在 的 只 是 合 
适 的 x 和 y 坐 标 值 。 真 正 的 “投影 ”， 是 给 屏幕 像素 着 
色 的 过 程 ， 也 就 是 向 Frame Buffer 写 入 最 终 像素 颜色 
的 过 程 。 


图 8-150 ”背面 剔除 示意 图 
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图 8-151 没有 根据 透视 原理 进行 缩放 的 场景 
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遵循 透视 观察 到 的 


非 透 视 观察 到 的 


图 8-152 遵循 透视 原理 进行 缩放 的 场景 (1) 


3 可 大 话 计算 机 一 一 计算 机 系统 底 
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非 透视 观察 到 的 i: 遵循 透视 观察 到 的 ко 
图 8-153 ”遵循 透视 原理 进行 缩放 的 场景 (2) 
只 不 过 人 脑 其 实 一 直 都 无 法 直接 理解 z 值 。z 值 的 。 还 记得 图 8-149 右 侧 所 示 的 蓝 色 圆 环 一 部 分 被 纳入 


存在 是 为 了 计算 出 更 符合 人 脑 认 知 的 x 和 y 值 ， 从 而 间 
接 理解 z 值 。 那 么 此 时 z 值 既然 已 经 毫 无 用 处 ， 是 不 是 
可 以 从 顶点 缓冲 区 中 删除 了 ? 非 也 。 还 记得 2D 图 像 
中 图 层 的 概念 么 ? 要 知道 在 这 一 步 我 们 还 没有 对 整 
个 图 像 的 所 有 像素 进行 着 色 操作 ， 如 果 现 在 就 把 z 值 
删除 ， 着 色 的 时 候 就 无 法 知道 每 个 模型 位 于 z 轴 的 位 
置 ， 也 就 无 法 做 到 顶层 像素 颜色 一 定 要 覆盖 底层 像 
素 的 颜色 ， 而 产生 错误 结果 ， 如 图 8-154 所 示 
上 ，z 坐 标 值 一直 会 被 保留 到 接近 图 像 生 成 过 程 的 最 
后 一 刻 。 

第 5 步 : 透视 坐标 空间 到 剪裁 坐标 空间 的 转换 。 
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视 锥 体 么 ? 视 锥 体外 面 的 模型 不 被 泻 染 ， 需 要 被 裁 
掉 。 这 样 的 话 ， 在 剪裁 线 上 就 需要 生成 新 的 顶点 和 面 
元 ， 需 要 将 新 生成 的 顶点 记录 到 项 点 缓冲 区 中 ， 如 图 
8-155 所 示 。 该 过 程 被 称 为 Clipping (前 裁 ) 。 

完成 这 一 步 ， 应 该 就 可 以 了 吧 ? 此 时 所 有 顶点 的 
x 和 y 已 经 完全 按照 透视 比例 呈现 在 眼前 。 非 也 。 

第 6 步 : 剪裁 坐标 空间 到 视窗 坐标 空间 的 转换 。 
我 们 知道 电脑 屏幕 是 有 不 同 分 辩 率 的 ， 如 640 X 480、 
4096X2160 等 ， 甚 至 还 可 以 将 图 形 只 显示 在 屏幕 的 某 
个 部 分 ， 也 就 是 窗口 中 。 所 以 ， 还 需要 将 最 终 的 x 和 y 
值 变 换 为 屏幕 空间 坐标 值 。 如 果 图 形 是 全 屏幕 显示 ， 
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图 8-154 没有 了 z 值 的 后 果 
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图 8-155 ”剪裁 和 


The part outside the 
frustum is removed 


Remaining area split into 
smaller triangles 


成 新 的 顶点 


则 需要 将 x、y 坐 标 值 从 浮 点 数 翻译 成 与 屏幕 分 辩 率 相 
对 应 的 整数 数值 ， 也 就 是 按 比例 缩放 然后 取 整 。 如 果 
在 某 个 窗口 中 显示 图 形 ， 那 么 需要 以 这 个 窗口 占用 的 
像素 分 辩 率 值 做 同样 的 缩放 取 整 ， 之 后 还 需要 做 一 次 
相对 屏幕 原点 的 平移 操作 。 最 终 ， 顶 点 缓冲 区 中 的 x 
和 y 坐 标 值 会 以 屏幕 原点 为 基准 点 ， 与 屏幕 上 的 像素 
点 的 坐标 值 精确 对 应 ， 如 图 8-156 所 示 。 
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图 8-156 ”窗口 坐标 空间 转换 


值得 一 提 的 是 ， 顶 点 的 法 向 量 值 也 会 跟随 着 这 5 
步 转换 一 起 做 变换 计算 ， 但 是 顶点 的 纹理 坐标 并 不 跟 


随 变换 。 绘 图 主 程序 ， 比 如 游戏 ， 需 要 为 每 个 模型 准 
备 各 自 的 变 F， 因 为 不 同 模型 在 世界 坐标 空间 中 


的 位 置 和 朝向 都 不 同 。 
到 这 一 步 我 们 要 演 染 的 3D 图 形 依然 只 是 内 存 中 的 
- 堆 顶 点 坐标 值 而 已 。 前 文中 说 过 ， 模 型 的 顶点 是 可 
以 具有 颜色 值 的 ， 对 于 一 些 不 希望 通过 贴图 给 模型 着 
色 的 场景 ， 可 以 指定 顶点 颜色 然后 通过 插值 将 平均 过 
渡 色 涂 满 模型 覆盖 的 所 有 像素 点 。 对 于 具有 项 色 
的 模型 ， 此 时 的 确 可 以 在 屏幕 上 显示 出 这 些 颜色 (不 
会 自动 显示 ， 因 为 没有 演 染 完工 的 图 形 不 会 被 输送 到 
当前 正在 播放 的 Frame Buffer， 所 以 必须 手动 让 它 显 
示 ) 。 如 图 8-157 所 示 ， 左 侧 为 项 点 不 具备 颜色 时 的 
情景 ， 也 就 是 黑屏 ， 什 么 都 没有 ; 右 侧 是 具有 项 点 颜 
色 的 模型 ， 其 显示 效果 如 图 所 示 。 当 然 ， 由 于 顶点 
是 一 个 像素 ， 如 果 模 型 的 精细 度 不 够 ， 顶 点 数量 较 少 
的 话 ， 你 可 能 根本 就 分 辨 不 出 屏幕 上 的 点 ， 屏 幕 依然 
接近 黑屏 状态 。 我 们 假设 该 模型 不 采用 项 点 颜色 插值 
着 色 ， 而 采用 后 期 贴图 方式 。 


图 8-157 ”坐标 转换 之 后 的 3D 图 形 
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至 此 ， 项 点 坐标 变换 阶段 就 完成 了 。 该 阶段 的 输 
入 材料 为 顶点 坐标 、 顶 点 颜色 、 顶 点 法 向 量 ， 输 出 值 
则 为 转换 之 后 的 顶点 坐标 、 顶 点 法 向 量 ， 以 及 无 变化 
的 顶点 颜色 值 。 前 三 者 放 到 Vertex Buffer 中 ， 颜 色 值 
放 到 Color Buffer 中 。Color Buffer 用 于 保存 模型 所 有 像 
素 的 颜色 值 ， 其 并 非 当 前 正在 播放 的 Frame Buffer, 
但 是 可 以 看 作 是 后 台 即 将 登场 亮相 的 第 二 份 Frame 
Buffer。 当 程序 将 整个 图 形 演 染 完毕 之 后 ， 将 会 命 
令 显 卡 切换 到 该 Color Buffer 作 为 当前 激活 的 Frame 
Buffer， 从 这 里 读 取 颜色 值 播放 到 显示 器 。 而 之 前 的 
Frame Buffer 会 变 成 Color Buffer。 两 者 轮流 切换 。 当 
然 ， 实 际 中 不 止 两 份 在 切换 ， 而 是 有 多 份 ， 因 为 整个 
演 染 流程 中 会 有 多 个 角色 同时 使 用 Color Buffer， 这 样 
可 以 做 到 充分 的 并 行 处 理 。 这 个 阶段 又 被 称 为 几何 阶 
段 ， 意 思 就 是 将 顶点 进行 几何 坐标 变换 的 过 程 。 

前 文中 说 过 ， 光 照 是 让 人 感受 到 该 模型 是 3D 的 
一 个 重要 途径 也 是 必要 条 件 ， 所 以 ， 任 何 3D 模 型 如 果 
没有 光照 的 障 眼 法 ， 人 脑 就 会 认为 其 只 是 2D 图 形 。 所 


8.2.6.2 ”顶点 光照 计算 阶段 /Vertex Lighting 


前 文中 对 光照 的 概念 已 经 做 了 基本 介绍 。 常 规 
的 光照 方式 分 为 环境 光 、 漫 反射 和 镜面 高 光 三 种 。 环 
境 光 (Ambient) 指 的 是 方向 均匀 、 强 度 也 均匀 、 从 
四 面 八方 均匀 照射 到 物体 表面 的 光 。 物 体 表面 接受 这 
种 光照 射 之 后 理想 状态 下 不 会 产生 任何 明暗 差异 ， 物 
体 表面 的 亮度 会 整体 被 提升 到 某 个 值 ， 所 以 其 看 上 去 
就 像 一 副 2D 图 片 一 样 ， 如 图 8-158 左 侧 所 示 。 第 二 种 
光照 形态 则 是 物体 接受 来 自 远 处 某 处 的 平行 或 者 近 
似乎 行 光照 射 ， 这 些 光 照 在 物体 表面 产生 了 漫 反射 
(Diffuse) ， 如 图 8-158 中 间 所 示 的 效果 。 一 方面 由 
于 远 处 平行 光线 是 有 方向 的 ， 背 对 着 光源 的 地 方 的 亮 
度 就 会 变 暗 ， 另 一 方面 由 于 物体 表面 并 非 完全 平整 ， 
会 向 各 个 方向 以 不 同 强度 反射 光线 ， 物 体 表面 挡住 光 
的 微 表面 会 在 后 方 留 下 微 投影 的 暗 区 ， 这 样 ， 离 远 观 
察 该 物体 时 就 会 感受 到 漫 反 射 的 效果 。 第 三 种 形态 则 
是 镜面 高 光 〈Specular) ， 有 些 物 体 表面 比较 光滑 ， 
对 光线 的 反射 效果 如 图 8-158 右 侧 所 示 。 

实际 中 ， 这 三 种 形态 的 光照 一 般 会 个 加 在 一 起 
进行 ， 或 者 至 少 前 两 者 又 加 在 一 起 ， 光 照 效 果 与 物体 
表面 材质 类 型 息息相关 ， 中 间 这 个 看 上 去 更 像 是 泥 茶 
壶 ， 右 侧 的 更 像 是 陶瓷 茶壶 。 还 有 更 多 高 级 的 光照 模 
型 ， 在 此 就 不 多 介绍 了 。 

如 图 8-159 所 示 为 光 强 度 基本 计算 方式 。 物 体 表 
面 的 反射 光 强 度 与 入 射 光 和 法 线 的 夹 角 成 反比 。 根 
据 这 个 规则 ， 模 型 表面 每 个 点 的 法 线 我 们 也 可 以 算出 
来 ， 光 源 的 位 置 、 光 强度 、 光 色 已 知 ， 那 么 我 们 就 可 
以 算出 每 个 点 的 反射 光 强 度 ， 也 就 是 该 点 体现 出 的 亮 
度 了 ， 将 该 点 原 有 的 颜色 乘 以 这 个 亮度 系数 ， 就 可 以 
得 出 光照 之 下 该 点 的 新 颜色 值 。 如 果 光 线 本 身 带 有 颜 
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图 8-158 


Tllumination direction 


Diffusely reflected light 


光 强 度 与 入 射 角 的 关系 以 及 漫 反射 和 镜面 反射 的 不 同 亮度 和 角度 


图 8-159 
色 ， 则 需要 将 光线 颜色 色调 值 RGB 与 该 点 原 有 颜色 


RGB 分 量 进行 各 自 相 加 调和 ， 然 后 乘 以 亮度 系数 即 
可 。 如 果 场 景 下 同时 设置 了 上 述 三 种 形态 的 光照 类 
型 ， 那 么 需要 算出 每 一 种 光照 类 型 影响 下 每 个 点 的 颜 
， 然 后 将 三 个 颜色 值 相 加 即 可 。 当 然 ， 颜 色 值 如 果 
£w 加 之 后 会 溢出 ， 毕 竟 RGB 每 个 分 量 只 有 8 位 也 


就 是 256 这 么 大 ， 如 果 溢 出 ， 则 需要 按 比 例 降低 亮度 
БИЙ ЕН o 
那么 ， 这 个 计算 过 程 ， 与 顶点 又 有 什么 关系 呢 ? 


如 果 针 对 每 个 点 都 计算 上 述 的 光照 过程， 将 要 耗费 大 
量 的 算 力 。 其 次 ， 每 个 面 元 上 所 有 像素 点 的 法 线 是 相 
同方 向 的 ， 那 意味 着 这 个 面 整体 的 亮度 也 会 相同 ， 这 
样 一 些 低 面 元 精度 的 物体 看 上 去 就 像 用 玻璃 片 黏合 起 
来 一 样 〈 前 文中 已 经 介绍 过 ) 。 为 此 人 们 利用 另 一 种 
方式 来 对 物体 表面 进行 更 均匀 的 光照 亮度 处 理 ， 那 就 
是 根据 每 个 顶点 的 法 线 算出 每 个 顶点 的 亮度 ， 然 后 再 


环境 光照 + 漫 反射 光照 
:种 光照 形式 效果 一 览 


环境 光照 + 漫 反射 光照 + 镜面 光照 


varying light direction 
通过 插值 求 出 平均 亮度 ， 如 图 8-160 所 示 。 受 限于 绘 


varying epecular exponent 

图 技能 和 精力 ， 冬 瓜 哥 并 没有 将 亮 斑 表示 为 不 同 的 亮 
度 ， 实 际 上 应 该 这 么 做 ， 大 家 只 能 脑 补 了 。 

图 8-160 是 理解 光照 过 程 的 关键 所 在 。 这 个 图 展示 
了 程序 是 如 何 一 点 一 点 地 在 一 个 Жылдын аы 
生 的 3D 图 形 的 。 我 们 跟随 着 程序 过 程 来 深刻 理解 一 

ИЖ EARE 
的 ? 那 当 然 是 从 已 经 被 转换 到 屏幕 空间 项 点 的 X 和 Y 
坐标 值 获知 的 。 这 些 项 点 的 坐标 值 被 放 在 哪里 了 ? 
放 在 顶点 缓冲 区 Vertex Buffer 中 了 。 这 些 项 点 从 哪里 
来 ? 从 3D 模 型 文件 中 来 。3D 模 型 文件 是 怎么 来 的 ? 
人 们 利用 3D 建 模 软件 精确 制作 出 来 的 。 抢 答 一 个 ， 
3D 建 模 软件 是 人 们 精心 开发 出 来 的 ， 谢 谢 。 那 么 ， 程 
序 在 点 亮 项 点 之 后 ， 又 是 怎么 点 亮 模型 上 其 他 点 的 ? 
通过 插值 求 平均 〈 根 据 三 角形 中 心 原则 ) ， 混 合 双方 
顶点 的 颜色 值 ， 如 图 8-160 中 三 角形 所 示 ， 品 红 + 绿 = 


图 8-160 根据 项 点 亮度 插值 涂抹 整个 模型 表面 所 有 像素 的 亮度 


墨绿 ， 品 红 + 蓝 = 紫 ， 墨 绿 + 紫 = 棕 色 ， 就 这 样 对 每 个 像 
素 点 求 出 其 颜色 。 当 然 ， 我 们 这 个 模型 顶点 不 具有 颜 
色 ， 假 设 光源 颜色 为 白光 。 程 序 是 怎么 知道 哪里 应 该 
是 暗 的 而 不 去 点 亮 或 者 亮度 降低 ? 根据 光源 和 顶点 法 
线 夹 角 算出 来 的 ， 与 光源 夹 角 大 的 地 方 自然 亮度 就 低 
了 ， 自 然 形成 暗 带 。 所 以 ， 程 序 并 不 是 天 然 就 会 做 什 
么 ， 而 都 是 由 算法 算出 来 的 。 程 序 怎么 知道 每 个 顶点 
法 向 量 的 ? 利用 顶点 坐标 算出 来 的 ， 或 者 直接 在 3D 建 
模 时 提前 算出 记录 到 3D 模 型 文件 中 ， 并 在 坐标 转换 时 
一 同 被 转换 到 屏幕 坐标 空间 。 所 以 ，z 轴 信息 不 能 扔 。 

经 过 了 上 述 的 思路 梳理 ， 现 在 你 应 该 更 深 一 步 理 
解 了 之 前 所 说 的 “z 轴 信息 的 存在 是 为 了 产生 更 加 符 
合 人 脑 认 知 的 x 和 y 轴 坐标 ”这 个 道理 了 。2D 模 型 与 
3D 模 型 之 间 就 差 了 一 个 z 轴 信息 ， 虽 然 最 终 的 3D 图 形 
看 上 去 依然 是 2D， 但 是 z 轴 信息 在 后 台 默 默 影响 着 你 
的 感 观 认 知 。 现 在 不 妨 再 增加 一 句 “z 轴 信息 在 光照 
阶段 可 以 产生 符合 人 脑 认 知 的 3D 模 型 对 应 位 置 的 像素 
亮度 ”。 从 图 8-160 中 可 以 体会 到 ， 光 是 视觉 感知 的 
唯一 支撑 者 ， 没 有 光 ， 一 切 都 是 黑 的 ， 有 了 光 ， 才 有 
了 亮度 ， 你 才能 观察 到 事物 表面 。 

至 此 ， 光 照 处 理 这 一 步 就 完成 了 。 其 输入 材料 是 
Vertex Buffer 中 上 一 步 变 换 好 的 顶点 坐标 、 法 向 量 等 
信息 ， 以 及 Color Buffer 中 的 顶点 颜色 信息 。 其 输出 值 
是 计算 好 的 亮度 增加 到 一 定 值 的 (取决 于 用 了 哪 种 光 
照 方式 ) 顶点 颜色 ， 更 新 到 Color Buffer 中 。 

要 涂抹 整个 模型 表面 的 每 一 个 点 的 颜色 ， 前 提 是 
先知 道 模型 面 元 跨 过 的 每 个 像素 点 的 坐标 。 图 8-160 
最 右 侧 图 形 生成 的 前 提 ， 是 程序 先 要 对 模型 面 元 做 栅 
格 化 处 理 。 


8.2.6.3 ШЕМ /Раѕіегігаіоп 


在 介绍 2D 图 形 演 染 时 ， 我 们 其 实 已 经 介绍 过 栅 格 
化 的 基本 过 程 。 对 于 3D 图 形 的 栅 格 化 过 程 ， 在 本 质 上 
其 实 已 经 是 在 2D 平 面 内 操作 了 ， 与 2D 栅 格 化 的 原理 
完全 相同 。 栅 格 化 具体 的 算法 有 多 种 ， 在 此 不 多 介绍 
了 。 如 图 8-161 所 示 为 Scan Line 方 式 ， 也 就 是 一 行 一 
行 地 将 三 角形 两 个 边 跨越 的 像素 坐标 记录 下 来 ， 保 存 
在 Position Buffer 中 。 

如 图 8-162 所 示 为 栅 格 化 过 程 中 可 以 做 的 一 些 优 
化 ， 比 如 扫描 方向 以 及 将 内 部 的 方形 区 域 点 坐标 直接 
批量 记录 等 方式 。 正 如 我 们 介绍 2D 图 形 的 栅 格 化 时 所 
说 的 ， 由 于 像素 有 一 定 的 面积 ， 一 个 边 可 能 同时 跨越 
了 两 个 像素 ， 如 何 选择 有 不 同 的 算法 和 规定 ， 这 里 不 
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图 8-162 ” 栅 格 化 过 程 优化 


思考 一 下 ， 如 果 只 想 把 模型 所 有 面 元 的 边 显示 出 
来 ， 比 如 在 那些 3D 辅 助 建 模 软件 中 ， 此 时 无 须 泻 染 
模型 的 面 片 。 那 么 栅 格 化 的 时 候 只 需要 对 边 进行 栅 格 
化 即 可 。 这 种 模式 被 称 为 线 框 泻 染 模式 CWireframe 
Mode) ， 效 果 如 图 8-150 中 的 茶壶 所 示 。 同 理 ， 顶 点 
模式 就 是 指 只 泻 染 顶点 出 来 ， 效 果 就 是 如 图 8-157 右 
侧 所 示 。 

再 思考 一 个 问题 : 假设 一 个 场景 中 有 多 个 模型 ， 
在 z 轴 方向 上 ， 前 面 的 模型 挡住 了 后 面 某 个 模型 ， 那 
么 是 否 有 必要 将 被 挡住 的 部 分 也 栅 格 化 出 来 ? 其 实 完 
全 没有 必要 ， 因 为 被 挡住 的 像素 就 不 应 该 被 显示 出 
来 ， 这 种 处 理 被 称 为 Early Z-Culling 〈 早 期 Z 剔 除 ) 。 
这 与 背面 消 隐 (Backface Culling) 做 的 事情 类 似 ， 但 
又 不 完全 相同 。 后 者 是 在 投影 视 锥 体 时 就 直接 将 对 应 
的 顶点 从 Vertex Buffer 中 干掉 ; 而 前 者 顶点 依然 存在 
只 是 并 不 对 其 栅 格 化 处 理 。 后 者 是 单个 模型 的 背面 被 
消 隐 ， 而 前 者 则 是 不 同 模型 场景 下 被 挡住 的 后 面 模型 
的 整体 不 被 栅 格 化 。 


那些 被 背面 消 隐 以 及 早期 Z 别 除 的 面 元 ， 难 道 
当 视 角 转 到 模型 身后 的 时 候 ， 也 不 存在 了 么 ? 那样 
岂 不 是 看 到 模型 表面 全 是 破 洞 ?9 非 也 。 要 知道 ， 当 
视角 变换 的 时 候 ( 你 绕 到 模型 后 面 时 ) ， 程 序 需要 
重新 计算 出 当前 场景 下 的 模型 坐标 新 位 置 ( 重新 进 
行 一 整套 坐标 变换 ) ， 重 新 计算 背面 消 隐 ， 重 新 泻 
染 。 所 以 程序 一 定 会 让 你 看 到 你 该 看 到 的 ， 面 对 着 
你 的 模型 表面 一 样 也 不 会 少 。 所 以 ， 每 次 鼠标 移动 
/键盘 按 动 ， 都 会 导致 整个 场景 重新 绘制 。 哦 ? JE 
计算 机 工作 负载 也 太 重 了 吧 ， 我 都 不 敢 动 鼠标 了 。 
是 的 ， 而 且 每 秒 还 要 至 少 泻 染 30 帧 才能 骗 过 你 的 眼 


睛 。 不 过 别 担 心 ， 该 用 还 是 得 用 ， 目 前 数字 电路 的 


图 8-161 对面 元 进行 栅 格 化 的 过 程 
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处 理 能 力 远大 于 你 的 想象 。 如 果 你 去 看 看 汽车 发 动 
机 ， 它 也 是 一 样 的 道理 ， 纵 使 汽车 以 很 低 的 速度 行 
驶 ， 发 动机 活塞 也 是 在 以 很 高 的 速度 不 停 往复 运 
动 。 你 可 能 会 担心 它 给 磨 坏 了 ， 一 旦 车 散 架 了 ， 活 
Жш Жел БАЛ? 然而 事实 却 是 安全 得 很 。 


然而 ， 如 果 场 景 中 有 需要 做 透明 特效 处 理 的 模 
型 ， 那 么 背面 消 隐 和 早期 Z 剔 除 技术 都 不 能 被 使 能 ， 
因为 在 栅 格 化 阶段 根本 无 法 判断 挡 在 某 个 物体 前 面 的 
物体 是 否 是 透明 的 ， 只 有 到 后 面 的 像素 着 色 阶段 才 会 
知道 。 如 果 模 型 有 透明 部 分 ， 则 后 面 物 体 被 剔除 的 表 
面 就 会 被 观察 到 。 我 们 假设 不 启用 背面 消 隐 和 早期 Z 
剔除 。 

场景 中 的 模型 被 栅 格 化 之 后 ， 模 型 前 面 、 侧 面 和 
背面 ， 或 者 其 顶 面 和 底面 ， 总 之 ， 每 个 面 的 每 个 像素 
点 的 坐标 值 ， 包 括 x/y/z， 都 被 记录 到 Position Buffer 
中 。 其 中 点 的 x 和 y 坐 标 值 就 是 屏幕 坐标 空间 中 的 值 ， 
而 z 坐 标 值 则 根据 该 点 所 在 面 元 的 三 个 项 点 坐标 插值 
得 到 ， 这 类 数学 题 高 中 立体 几何 估计 也 曾 遇 到 过 。 

至 此 ， 栅 格 化 阶段 就 结束 了 。 该 阶段 接受 的 输 
入 材料 是 Vertex Buffer 中 的 顶点 坐标 值 ， 输 出 的 则 是 
模型 表面 所 有 像素 点 的 x/y/z 坐 标 值 ， 将 它们 放置 到 
Position Buffer 中 。 到 这 一 步 ， 图 形 还 没有 演 染 完 ， 但 
是 如 果 将 此 步 的 结果 显示 在 屏幕 上 的 话 ， 将 会 是 如 图 
8-160 最 左 侧 所 示 的 图 形 ， 因 为 此 时 虽然 模型 每 个 像 
素 的 坐标 已 经 确定 ， 但 是 像素 还 没有 被 涂 上 颜色 ， 只 
有 顶点 具有 颜色 。 

不 得 不 介绍 的 一 个 背景 是 ， 视 模型 的 顶点 数量 。 
程序 可 能 并 不 是 一 次 将 整个 模型 作为 泻 染 粒度 来 泻 染 
的 ， 而 可 能 只 是 读 出 该 模型 中 的 某 64 个 〈 或 者 其 他 数 
ж) 项 点， 然后 对 其 做 坐标 变换 、 光 照 计算 、 栅 格 
化 ， 然 后 再 载 入 一 批 顶点 继续 处 理 。 前 文 以 及 下 文中 
提 到 的 比如 “给 整个 模型 的 像素 着 色 ” 等 ， 其 实在 底 
层 也 都 是 对 像素 一 批 批 执行 的 。 至 于 每 一 批 处 理 多 少 


项 点， 取决 于 多 种 因素 ， 比 如 CPU 处 理 能 力 ， 如 果 采 
用 专用 的 硬件 芯片 来 加 速 计算 的 话 ， 那 就 取决 于 该 芯 
片 内 部 的 并 行 粒度 、 规 模 等 因素 。 


8.2.6.4 像素 着 色 阶 段 /Pixel Shading 


在 上 一 步 ， 栅 格 化 模块 输出 了 模型 在 屏幕 上 所 跨 
越 的 像素 坐标 值 ， 但 是 却 没有 为 每 个 像素 着 色 。 像 素 
着 色 阶段 的 任务 ， 就 是 最 关键 的 一 步 ， 即 为 每 个 像素 
涂 上 颜色 。 首 先 ， 把 模型 做 成 石膏 像 。 也 就 是 说 ， 先 
用 顶点 的 颜色 〈 由 光照 阶段 计算 好 的 ) 做 插值 ， 涂 布 
到 整个 模型 表面 ， 形 成 图 8-160 最 右 侧 所 示 的 样子 。 
由 于 我 们 没有 使 能 背面 消 隐 或 者 早期 Z 剔 除 ， 所 以 模 
型 背面 的 像素 点 〈 存 在 于 Color Buffer 中 ) 也 会 被 涂 
上 颜色 〈 可 能 是 很 黑 的 颜色 ， 因 为 根据 图 中 的 光源 
位 置 来 看 光线 几乎 到 达 不 了 背面 ) 。 这 就 产生 了 一 
个 问题 ， 如 何 决定 该 模型 的 前 表面 还 是 后 表面 对 应 
同一 根 z 轴 上 的 像素 颜色 被 显示 在 屏幕 上 ? 当然 是 前 
表面 (除非 物体 是 透明 的 ) ， 那 就 是 说 ， 当 程序 看 到 
两 个 像素 的 x、y 坐 标 相 同时 ， 它 需要 判断 z 轴 的 值 来 
决定 将 哪个 颜色 写 入 Color Buffer。 具 体 做 法 下 文 再 
介绍 。 

不 过 ， 先 别 急 ， 像 素 的 颜色 不 仅仅 取决 于 光照 颜 
色 ， 还 取决 于 顶点 的 颜色 。 前 文中 介绍 过 ， 程 序 可 以 
根据 顶点 的 颜色 来 插值 求 平均 ， 生 成 过 渡 色 ， 或 者 直 
接 用 同一 种 颜色 涂抹 整个 面 元 。 这 种 简陋 的 着 色 处 理 
方式 被 称 为 Flat Shading 模 式 。 一 些 比较 简约 风格 的 游 
戏 使 用 这 种 方式 来 泻 染 ， 如 图 8-163 左 侧 所 示 。 

如 果 不 使 用 Flat Shading， 直 接 采 用 贴图 ， 就 可 
以 直接 忽略 顶点 的 颜色 ， 因 为 它 原生 是 为 了 给 Flat 
Shading 提 供 参考 的 。 那 么 像素 的 颜色 最 终 就 取决 于 模 
型 表面 的 贴图 。 只 有 早期 简陋 的 游戏 采用 Flat Shading 
模式 。 所 以 ， 需 要 对 石膏 像 进行 贴图 着 色 ， 或 者 叫 作 
纹理 映射 (8.2.5 节 中 提 到 过 ) 。 相 比 之 下 ， 对 模型 表 
面 进行 光照 处 理 的 过 程 则 可 以 称 为 光照 映射 CLight 
Mapping) 。 纹 理 映 射 的 过 程 中 先 要 对 纹理 进行 纹理 


图 8-163 Flat Shading 着 色 与 贴图 /纹理 映射 示意 图 


采样 ， 见 8.2.5 节 中 的 描述 。 贴 图 纹理 映射 会 耗费 比较 
大 的 存储 资源 ， 因 为 要 将 贴图 放 到 存储 器 中 。 

如 图 8-163 右 侧 所 示 ， 将 颜色 纹理 贴图 到 石膏 像 
表面 之 后 ， 之 前 没有 任何 光照 明暗 效果 而 只 有 颜色 的 
纹理 图 片 ， 在 石膏 像 表 面 立 即 棚 棚 如 生 了 起 来 。 为 什 
Z? 因为 程序 在 将 纹理 图 片 中 的 纹 素颜 色 值 写 入 到 对 
应 像素 的 Color Buffer 中 时 ， 会 与 该 像素 的 光照 亮度 系 
数 做 乘法 操作 ， 最 终 就 生成 了 明暗 分 离 带 有 光照 效果 
的 模型 表面 像素 了 。 

如 图 8-164 所 示 为 一 直到 纹理 映射 阶段 的 图 形 生 
成 过 程 一 览 。 可 以 看 到 该 卡通 风格 人 物 模 型 表面 并 没 


有 应 用 比较 真实 的 光照 效果 处 理 ， 所 以 看 上 去 更 像 是 
2D 模 型 。 

由 于 要 根据 模型 顶点 的 纹理 坐标 对 纹理 图 样 进 
行 采 样 ( 见 8.2.5 节 中 的 介绍 〉， 


为 了 提升 速度 ， 程 序 
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会 预先 将 泻 染 要 用 到 的 纹理 图 样 载 入 到 纹理 缓冲 区 
(Texture Buffer) 中 。 模 型 的 顶点 属性 中 保存 有 纹理 
坐标 ， 程 序 按照 这 个 坐标 ， 到 纹理 图 案 中 对 应 位 置 拿 
取 纹 素颜 色 值 ， 然 后 填充 到 像素 Color Buffer 中 即 可 完 
成 贴图 ， 或 者 说 纹理 映射 。 如 图 8-165 所 示 ， 程 序 也 
可 以 不 根据 顶点 纹理 坐标 而 直接 从 纹理 图 案 中 任 选 出 
一 块 ， 甚 至 一 个 文 素 ， 贴 到 模型 中 任意 像素 上 。 

不 过 ， 由 于 图 形 投射 到 屏幕 上 之 后 多 数 时 候 并 非 展 
现 为 原先 预定 的 正视 图 形状 ， 贴 图 会 从 各 种 角度 呈现 册 
透视 形状 ， 此 时 如 果 不 加 处 理 ， 会 导致 如 图 8-166 所 示 
情形 。 透 视 会 导致 原本 平行 的 线 不 再 平行 ， 导 致 图 
被 扭曲 和 撕 裂 。 所 以 ， 在 进行 纹理 映射 时 需要 先 对 纹 
理 坐 标 做 透视 修正 计算 出 修正 后 的 纹 素 坐标 ， 然 后 再 
去 纹理 中 采样 对 应 的 纹 素 。 透 视 修正 具体 的 计算 请 大 
家 自行 了 解 ， 可 以 通过 解 一 下 几何 体 推导 出 来 。 
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初始 阶段 机 格 化 + 环境 光 环境 光 + 顶点 温 反 时光 照 计算 。 环境 光 + 温 反射 插值 涂抹 光照 + 贴图 后 灯光 减弱 
图 8-164 ”一 直到 纹理 映射 阶段 的 图 形 生 成 过 程 一 览 
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图 8-165 ”基本 的 纹理 映射 过 程 
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18-166 ”没有 进行 透视 修正 和 进行 了 透视 修正 后 的 贴图 对 比 
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贴图 在 透视 模式 下 被 撕 裂 的 原因 如 图 8-167 所 
示 。 透 视 投影 采用 的 是 从 一 点 发 出 的 发 散 线 而 不 是 平 
行 线 来 投射 的 ， 这 就 会 导致 模型 表面 中 心 的 位 置 透视 
投影 之 后 不 再 位 于 投影 的 中 心 。 或 者 说 ， 程 序 如 果 按 
照 投 影 之 后 的 像素 坐标 来 按 比 例 寻 址 纹 素 的 话 ， 会 寻 
址 到 错误 的 纹 素 。 如 果 贴 图 上 的 图 案 很 复杂 而 且 变化 
很 大 ， 那 么 人 眼 就 能 够 分 辨 出 这 种 错误 导致 视觉 质量 
下 降 ， 而 如 果 贴 图 上 的 图 案 不 算 复杂 ， 则 错误 的 纹 素 
与 正确 纹 素 之 间 的 颜色 差异 就 不 会 很 大 ， 也 就 不 容易 
察觉 。 

在 实际 中 ， 透 视 效 应 产生 的 扭曲 只 有 在 使 用 比 
如 方 格 图 这 种 带 有 强烈 对 比 暗示 的 时 候 才 能 让 人 眼 容 
易 察 觉 ， 在 一 些 其 他 图 形 下 也 不 容易 察觉 ， 比 如 图 
8-168 右 侧 所 示 的 圆 形 图 案 ， 程 序 即便 寻 址 到 错误 的 
纹 素 ， 也 不 易 发 觉 。 

现在 来 思考 另外 一 个 问题 。 模 型 在 屏幕 上 的 投 
影 形状 是 会 变化 的 ， 模 型 面 元 的 原本 形状 ， 在 经 过 层 
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层 坐 标 空间 变换 之 后 ， 投 影 在 屏幕 上 的 形状 会 与 原来 
的 大 相 径 庭 。 很 简单 的 例子 ， 比 如 图 8-165 中 ， 纹 理 
图 案 原 有 视角 是 正 对 的 正方 形 ， 而 模型 的 视角 发 生 了 
旋转 ， 该 正方 形 在 屏幕 上 变换 为 菱形 。 除 了 视角 旋转 
导致 的 形变 之 外 ， 视 角 的 拉 远 拉 近 也 会 导致 面 元 的 放 
大 缩小 ， 这 体现 为 在 屏幕 上 占用 的 像素 数量 的 变化 ， 
如 图 8-169 所 示 。 视 角 拉 远 之 后 ， 由 同样 的 顶点 组 成 
的 面 元 就 需要 跟着 缩小 ， 占 用 屏幕 上 的 像素 范围 也 会 
缩小 ， 那 么 之 前 合适 的 纹理 图 案 面积 就 相对 显得 大 
了 ， 所 以 称 该 场景 为 Magnification ОКК) 。 这 种 情 
况 下 ， 纹 理 图 案 中 有 相对 更 多 的 纹 素 点 可 供 挑选 ， 图 
形 的 像素 点 少 于 纹 素 点 ， 纹 素 点 过 剩 ， 所 以 又 被 称 为 
Oversampling 〈 过 采样 ) 。 反 之 ， 则 称 为 Minification 
(缩小 ) ， 此 时 纹理 图 案 显 得 小 了 ， 不 合身 了 ， 衣 不 
遮 体 ， 纹 素 点 数量 不 够 了 ， 捉 襟 见 肝 ， 图 形 的 像素 
点 多 于 纹 素 点 ， 所 以 又 被 称 为 Undersampling〔 欠 采 
样 ) 。 这 里 只 要 记 住 ，Magnification 指 的 是 原始 纹理 


A 我 看 到 的 是 正常 的 


如 果 按照 线性 等 比例 采样 
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图 8-167 图形 被 撕 裂 的 原因 
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图 8-168 ”被 透视 撕 裂 的 贴图 一 览 
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之 前 刚好 合 边 的 纹理 相对 变 大 了 之 前 刚好 合 边 的 纹 相 对 变 小 了 
所 以 叫 Magnification ( 放大 ) 所 以 叫 Minification ( 缩小 ) 


图 8-169 ”视角 远近 导致 的 面 元 占用 像素 的 数量 变化 


相对 大 了 ， 而 不 是 屏幕 上 的 图 形 大 了 ， 图 形 其 实 是 变 
小 了 ; Minification 则 指 原始 纹理 相对 小 了 ， 图 形变 大 
了 。 当 然 ， 不 同 的 人 有 不 同 的 叫 法 ， 有 些 材料 里 把 面 
元 屏幕 空间 变 大 称 为 Magnification， 反 之 亦 然 。 

很 显然 ， 衣 服 大 了 ， 揉 吧 揉 吧 也 能 穿 ， 衣 服 小 
了 ， 扯 吧 扯 吧 也 凑合 。 所 以 ， 只 要 将 纹理 图 案 进 行 对 
应 比例 的 扩 缩 ， 就 能 照样 给 模型 贴图 ， 如 图 8-170 所 
示 。 说 起 来 很 容易 ， 但 是 具体 应 该 怎么 做 呢 ? 

对 于 Magnification 过 采样 场景 ， 由 于 针对 图 形 中 
某 个 像素 ， 有 多 个 纹 素 可 供 选择 ， 所 以 只 能 挑 出 其 中 
合适 的 纹 素来 贴图 。 选 哪个 ? 可 以 这 样 来 计算 ， 针 对 
图 形 中 的 某 个 像素 ， 计 算 其 在 图 形 中 的 相对 位 置 ， 然 
后 到 纹理 图 案 中 以 相同 的 相对 位 置 取出 纹理 中 对 应 纹 
素 ， 也 就 是 说 ， 我 们 使 用 刻 舟 求 剑 的 方式 来 取 纹 素 ， 
或 者 说 采样 纹 素 ， 如 图 8-171 所 示 。 针 对 该 面 元 在 不 
同 视角 下 体现 出 的 不 同形 状 ， 其 覆盖 的 像素 点 也 不 
同 ， 视 角 为 正视 时 其 面积 最 大 ， 其 他 时 候 都 会 不 同 程 
度 地 变 小 ， 而 它 的 衣服 大 小 一 直 是 不 变 的。 所 以 ， 如 
果 产 生 了 过 采样 ， 程 序 就 要 挑 出 合适 的 像素 。 

图 8-171 中 直接 采用 比例 计算 图 形 中 某 像素 落 入 
了 纹理 中 的 哪个 点 ， 比 例 计 算 需 要 使 用 除法 ， 会 产 
生 浮 点 小 数 ， 只 要 将 结果 取 整 即 可 得 出 纹 素 坐标 。 
如 果 算 出 的 值 假设 为 (2.34, 4.78) ， 那 就 取 (2,4) 
这 个 坐标 上 的 纹 素 。 这 个 过 程 叫 作 单 点 采样 (Point 
Sampling) ， 或 者 Nearest Neighbor Sampling。 这 种 采 
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样 方式 有 个 问题 ， 一 旦 模型 视角 发 生变 化 ， 那 么 采样 
点 会 变 来 变 去 ， 每 次 采 到 的 样 点 都 不 同 ， 颜 色 也 随 之 
变 来 变 去 ， 随 着 视角 的 移动 ， 画 面 上 会 出 现 严重 的 颗 
粒 感 ， 就 像 有 一 堆 砂 粒 在 屏幕 上 跟随 视角 游 走 一 样 ， 
感觉 很 差 。 还 有 ， 单 点 采样 会 导致 图 形 产生 锯齿 ， 并 
且 在 视角 的 远 端 图 形 处 产生 严重 的 波纹 ， 导 致 图 形 失 
真 。 如 图 8-172 所 示 为 颗粒 感 、 锯 齿 、 波 纹 示 意图 。 

如 图 8-172 左 侧 所 示 ， 由 于 视角 可 以 任意 变换 ， 
面 元 图 形 的 变化 不 是 线性 的 ， 导 致 不 同 视 角 下 ， 面 
元 内 的 同一 个 位 置 可 能 会 采集 到 与 之 前 视角 相同 的 
像素 ， 也 可 能 采集 到 不 同 的 像素 ， 这 样 ， 随 着 视角 
的 移动 ， 像 素 不 断 变化 ， 这 就 是 导致 颗粒 感 和 闪烁 
的 原因 。 这 过 程 如 图 8-173 所 示 。 至 于 波纹 和 句 齿 ， 
从 图 8-172 左 侧 所 示 可 以 体会 到 ， 由 于 单 点 采样 的 随 
机 性 ， 在 原本 平行 的 两 条 线 上 采样 可 能 会 发 生 相 互 串 
扰 ， 边 缘 一 开始 是 形成 锯齿 ， 随 着 远 处 面 元 形状 的 透 
视 变化 ， 这 种 句 齿 逐渐 堆积 成 波纹 。 

为 了 改进 这 个 不 足 ， 人 们 想 了 个 办 法 ， 虽 然 不 
同 视角 可 能 会 采 到 不 同 纹 素 ， 但 是 这 些 纹 素 不 会 相隔 
太 远 ， 视 视角 变换 的 程度 而 定 ， 一 般 四 面 八方 不 超过 
1 个 像素 。 那么, 干脆 ， 在 计算 出 像素 点 落 入 的 纹理 
图 案 中 的 位 置 之 后 ， 根 据 当前 位 置 读 出 该 位 置 四 周 的 
四 个 纹 素 的 颜色 值 ， 将 这 4 个 颜色 值 按照 与 该 点 的 距 
离 接近 程度 做 线性 插值 求 平均 色 ， 然 后 将 得 出 的 颜色 
填充 到 对 应 的 像素 中 。 这 个 过 程 如 图 8-174 所 示 ， 对 


图 8-171 过 采样 情况 下 可 根据 相对 位 置 进行 单 点 采样 来 挑选 纹 素 
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视角 变换 导致 采 到 不 同 纹 素 9 нес: 


样 导 致 的 图 形 颗 粒 感 、 句 齿 和 波纹 失真 


图 8-172 单 点 


图 8-173 不 同 视角 导致 采 到 不 同 的 纹 素 
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图 8-174 ”利用 落 点 周围 的 4 个 像素 插值 求 平均 色 


应 的 计算 公式 如 图 右 侧 所 示 。 注 意 ， 平 均 的 方式 并 不 MAHERE (Bilinear Sampling) ， 或 者 双 线 性 插值 
是 4 颜色 求 和 再 除 以 4， 而 是 根据 每 个 纹 素 中 心 相距 该 。 采样 。 
点 的 距离 ， 算 出 对 应 纹 素 对 该 点 的 颜色 贡献 权重 ， 然 这 种 平均 化 处 理 ， 可 以 缓解 〈 但 不 能 完全 消除 
后 相 乘 ， 再 将 4 个 值 登 加 然后 除 以 4， 这 个 过 程 又 叫 作 ”画面 中 的 颗粒 、 锯 齿 和 波纹 ， 但 是 毫 无 疑问 ， 也 会 让 
加 权 平均 。 如 果 将 单 点 采样 方式 称 为 线性 插值 采样 ， 画面 会 变 得 模糊 ， 因 为 原本 分 离 清晰 的 纹 素 被 平均 化 
或 者 线性 采样 〈Linear Sampling) ， 或 者 线性 插值 采 了 。 对 应 的 效果 如 图 8-175 所 示 。 

样 ， 那 么 这 种 将 周围 4 个 像素 平均 化 的 方式 就 被 称 为 不 仅 是 3D 图 形 和 贴图 ， 就 算是 2D 图 形 ， 在 缩放 


图 8-175 ”采用 了 双 线 性 纹理 采样 后 的 图 形 效果 


过 程 中 也 会 产生 失真 。 比 如 图 片 缩小 ， 由 于 占用 屏幕 
像素 少 了 ， 产 生 了 过 采样 ， 就 要 对 图 片 重新 进行 采 
样 ， 将 挑 出 来 的 像素 重新 进行 组 合 ， 这 期 间 就 会 丢失 
一 部 分 像素 ， 导 致 图 片 失真 。 如 图 8-176 所 示 ， 将 一 
幅 图 像 缩小 后 ， 右 上 表示 使 用 双 线 性 采样 之 后 的 效 
果 ， 可 以 看 到 文字 依然 可 以 分 清 ， 但 是 显然 变 得 模糊 
了 一 些 。 而 右 下 图 的 文字 已 经 很 难 分 辨 了 。 
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图 8-176 ”贴图 /纹理 映射 示意 图 

这 种 双 线性 采样 ， 思 考 一 下 ， 是 不 是 与 低 通 滤波 的 
本 质 是 相同 的 ? 将 快速 变化 的 事物 组 和、 平均 化 成 缓慢 
变化 的 事物 ， 这 个 过 程 中 会 丢失 高 频 部 分 的 信息 。 

所 以 ， 这 种 处 理 方式 又 被 称 为 对 图 像 的 滤波 处 
理 。 图 像 中 的 “ 波 ” 也 有 频率 和 振幅 ， 频 率 就 是 指 像 
素 之 间 的 变化 频率 ， 像 素颜 色 越 纷 杂 的 地 方 ， 频 率 越 
高 ， 振 幅 则 是 指 像素 的 颜色 饱和 度 。 

为 了 增强 图 像 的 清晰 度 ， 人 们 想 尽 了 各 种 方法 。 
其 中 一 种 比较 流行 的 方式 ， 就 是 将 纹理 图 案 预 先进 行 
缩放 。 如 图 8-177 所 示 ， 程 序 可 以 预先 使 用 更 好 的 插 
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值 算 法 〈 比 如 采样 更 多 的 周围 样 点 进行 插值 平均 ， 最 
精准 的 方式 应 该 是 ， 对 任何 一 个 落 点 采样 整个 图 案 中 
所 有 纹 素 ， 根 据 每 个 纹 素 距 离 该 点 的 距离 做 加 权 平 
均 ， 但 是 这 样 做 会 耗费 太 大 的 运算 资源 ， 但 是 如 果 预 
先 准备 好 ， 就 不 存在 运算 资源 的 问题 了 ) 对 原始 图 案 
进行 高 质量 缩小 ， 然 后 生成 各 种 缩小 比例 的 图 案 ， 形 
成 一 个 组 合 套图 ， 这 份 套图 被 称 为 Mipmap。 每 个 分 
辨 率 层级 被 称 为 一 个 LOD (Level of Detail) , LOD#0 
级 的 纹 素 分 辩 率 最 高 。 

有 了 大 小 不 同 的 衣服 ， 当 面 元 变 为 不 同形 状 的 
时 候 ， 可 以 计算 出 面 元 在 x 和 y 方 向 的 变形 比 ， 进 行 取 
整 ， 然 后 从 套图 中 选 出 合适 的 图 案 去 采样 ， 这 样 就 会 
更 加 精准 。Mipmap 的 代价 就 是 需要 用 更 多 的 内 存 / 显 
存 空 间 来 存储 整套 图 案 。 

套图 只 是 提供 了 更 加 精准 的 纹理 图 案 模 板 可 供 选 
择 ， 但 是 如 何在 选 出 的 模板 上 采样 ， 依 然 是 可 以 选择 
的 ， 比 如 继续 采用 单 点 采样 ， 或 者 采用 双 线性 采样 。 
如 图 8-178 所 示 为 采用 Mipmap+ 单 点 采样 的 方式 生成 的 
图 形 效 果 对 比 。 可 以 看 到 左 侧 明显 的 颗粒 感 ， 而 右 侧 
颗粒 感 被 大 大 缓解 。 当 然 ， 画 面 变 得 稍微 模糊 一 些 也 
是 在 所 难免 的 。 


No Mipmapping 
图 8-178 ”Mipmap+ 单 点 采样 


一 种 比较 流行 的 做 法 是 ， 根 据 当前 面 元 视角 从 套 
图 中 选 出 两 个 层级 的 LOD 套 图 〈 根 据 变形 比 落 入 的 


With Mipmapping 


— ваз 
очи кє? 
а Е — level 1 
а | ү 


128x128 ји 32x32 
кора hoos 


32 x 32 


16 x 16 


图 8-177 对 图 案 进 行 预先 缩放 形成 Mipmap 套 图 
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范围 ， 比 如 落 入 了 两 个 LOD 层 级 套图 之 间 ) ， 然 后 
对 每 个 LOD 图 分 别 进行 双 线性 采样 〈 采 该 图 中 落 点 
周围 的 4 个 点 进行 加 权 插值 ) ; 然后 将 得 出 的 两 个 值 
再 次 进行 加 权 平 均 采 样 ， 得 出 最 终 的 颜色 。 比 如 变形 
比 =3.2， 那 就 取 LOD#3 和 LOD#4 这 两 幅 图 案 ， 得 出 的 
两 个 颜色 A 和 B 再 做 Ax(4-3.2)+Bx(3.2-3) 运 算 ， 得 出 最 
终 颜 色 值 。 这 种 同时 采样 相 邻 的 两 个 LOD 层 、 每 层 
双 线 性 插值 的 做 法 被 称 为 三 线性 插值 采样 〈Trilinear 
Sampling) 。 如 图 8-179 所 示 为 前 文中 的 场景 使 用 三 线 
性 采样 处 理 后 的 效果 ， 可 以 看 到 图 清晰 了 一 些 ， 远 处 
的 波纹 也 减少 了 。 

至 此 ， 至 少 可 以 有 下 列 组 合 : 单个 Mipmap+ 
单 点 采样 、 单 个 Mipmap+ 双 线 线 性 采样 、 相 邻 两 个 
Mipmap+ 每 个 单 点 采样 ， 以 及 相 邻 两 个 Mipmap+ 每 个 
双 线 性 采样 〈 该 组 合 等 价 于 三 线性 采样 ) 。 除 了 最 后 
这 种 ， 人 们 并 没有 给 每 种 组 合 再 起 一 个 名 字 ， 而 且 其 
他 组 合 也 并 不 常用 。 当 然 ， 对 每 个 点 周围 的 8 个 纹 素 
进行 插值 平均 也 可 以 ， 效 果 也 更 好 ， 但 是 耗费 的 运算 
资源 也 就 越 多 ， 性 能 也 就 越 差 。 

Mipmap 的 方式 丢失 的 信息 更 少 ， 因 为 在 套图 预 
处 理 阶段 已 经 做 了 损失 尽 可 能 小 的 缩小 处 理 ， 通 过 空 
间 来 换取 对 实时 演 染 运算 时 的 资源 耗费 要 求 ， 自 然 也 
就 有 更 好 的 效果 。 其 实 ， 如 果 不 使 用 Mipmap， 让 程 


序 实 时 以 更 好 的 算法 来 采样 ， 也 能 做 到 类 似 效果 ， 但 
是 性 能 就 会 变 差 。 

上 文中 介绍 的 场景 其 实 都 是 假定 面 元 的 形状 是 
相对 于 纹理 图 案 的 形状 呈 线 性 缩放 的 ， 也 就 是 不 带 有 
透视 或 者 旋转 角度 的 ， 只 在 x 和 y 轴 平面 上 缩放 ， 如 图 
8-180 所 示 。 左 半 部 分 ， 假 设 采样 落 点 落 入 图 中 黑 框 正 
中 央 ， 如 果 以 双 线 性 采样 方式 ， 则 该 点 的 颜色 受到 黑 
框 中 4 个 纹 素 的 平均 (权重 相同 〉 影响， 最 终 采样 到 
的 颜色 值 为 该 4 个 纹 素颜 色 值 的 平均 值 ， 假 设 为 淡 紫 
色 。 现在， 该 面 元 在 x*、y 平 面 上 被 等 比例 缩小 ， 缩 
小 之 后 ， 毫 无 疑问 ， 该 点 仍然 受 同样 这 4 个 纹 素 的 影 
响 ， 采 样 到 的 色彩 值 不 变 。 但 是 如 果 该 图 形 受到 了 透 
视 挤 压 ， 比 如 在 x 轴 方向 上 的 长 度 由 L 变 为 了 L”， 那 
么 ， 这 个 方向 上 的 纹 素 就 会 更 加 被 挤 压 到 一 起 ， 导 致 
其 他 纹 素 与 该 点 的 相对 距离 更 近 了 ， 于 是 ， 该 落 点 的 
颜色 原本 只 受到 4 个 纹 素 的 贡献 ， 现 在 就 不 得 不 考虑 x 
轴 方 向 上 的 其 他 纹 素 的 影响 了 。 于 是 ， 最 终 的 采样 插 
值 范围 ， 应 该 如 图 8-180 最 右 侧 所 示 ， 进 行 加 权 插 值 
后 ， 最 终 采 样 到 的 颜色 也 会 变化 ， 但 是 更 加 精准 了 。 

同 理 ， 如 图 8-181 所 示 ， 该 面 元 在 x 和 y 轴 方向 上 
均 被 透视 扭曲 成 一 定 比例 ， 所 以 采样 范围 需要 在 两 个 
方向 上 都 增加 相应 的 比例 。 

如 果 假 设 某 面 元 最 终 被 缩小 成 一 个 屏幕 像素 ， 那 么 


图 8-179 三 线性 采样 效果 示意 图 


等 比例 缩小 后 ， 采 样 插值 范围 不 变 


不 等 比例 缩小 后 ， 对 应 方向 的 采样 插值 范围 应 该 按照 
相应 的 比例 变 大 


图 8-180 不 成 比例 缩放 时 需要 对 采样 范围 进行 变更 才能 避免 更 多 信息 丢失 


横向 和 纵向 都 不 按 比例 缩小 后 ， 两 个 方向 的 采样 插值 范围 应 该 按照 
相应 的 比例 变 大 
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图 8-181 在 两 个 方向 上 均 增 加 采样 范围 


请 问 ， 该 像素 最 准确 的 颜色 应 该 是 ? 答案 就 是 把 该 面 元 
对 应 纹理 中 的 所 有 纹 素 按 各 自 权重 求 平均 值 ， 得 到 的 值 
就 是 所 有 纹 素颜 色 的 混 受 值 ， 这 样 才能 反映 真实 的 感 
观 ， 当 然 ， 运 算 量 也 非常 大 。 正 因 如 此 ， 实 际 的 运算 
都 是 只 从 像素 落 点 周围 取 一 定 范围 的 纹 素 进行 计算 。 
这 种 更 合理 的 采样 方式 就 是 将 透视 后 的 面 元 在 x 和 y 轴 
上 不 成 比例 的 距离 考虑 进去 ， 然 后 将 采样 范围 的 形状 
也 跟着 这 个 透视 形状 做 改变 ， 得 到 更 精准 的 采样 值 。 
而 代价 则 是 由 于 采样 范围 增加 ， 运 算 量 也 增加 了 。 

上 述 的 这 种 将 不 等 比例 缩放 以 及 透视 旋转 角度 
的 影响 因素 考虑 进去 的 采样 方式 被 称 为 各 向 异性 采样 
《Anisotropic Sampling) 。 相 比 之 下 ， 之 前 假设 面 元 
都 是 等 比例 缩小 的 固定 采样 方式 ， 则 属于 各 向 同性 采 
样 。 各 向 异性 指 的 就 是 当面 元 被 透视 成 不 同 角度 的 时 
候 ， 采 样 范围 也 需要 跟着 变化 ， 不 同 视角 下 的 范围 是 
不 同 的 。 如 图 8-182 所 示 为 采用 各 向 异性 采样 之 后 的 图 
形 效 果 ， 可 以 看 到 视角 远 处 的 纹理 变 得 更 加 清晰 了 。 


图 8-182 各 向 异性 采样 与 三 线性 采样 的 效果 对 比 


Point Linear Anisotropic 


-= 从 两 个 层级 点 取样 ( 也 可 以 按照 双 / 三 线性 或 者 各 向 异性 取样 ) 后 再 次 根据 1-Y 与 Y 的 比例 加 权 插值 


图 8-180 中 的 场景 ， 采 用 各 向 异性 采样 方式 的 
话 ， 需 要 处 理 相 比 双 线 性 采样 2 倍数 量 的 采样 点 ， 称 
之 为 2X 各 向 异性 采样 。 而 图 8-181 中 的 场景 ， 由 于 
在 两 个 方向 上 各 自 不 等 比例 缩小 了 ， 所 以 其 采样 数 
量变 成 了 6 倍 于 之 前 的 量 ， 那 就 称 之 为 6X 各 向 异性 
采样 。 在 一 般 的 实现 中 ， 用 户 可 以 选择 2X、4X、 
8X 和 最 高 到 16X 倍率 的 各 向 异性 采样 。 可 以 看 到 ， 
当面 元 被 压 扭 曲 得 越 厉害 ， 采 样 范围 也 就 越 大 ，x 
倍数 就 越 大 ， 耗 费 的 运算 量 也 就 越 大 。 所 以 ， 各 向 
异性 采样 倍率 是 动态 变化 的 ， 而 并 不 是 任何 时 候 都 
以 比如 16X 倍 率 采样 ， 设 定 的 倍率 只 表示 最 高 采样 
倍率 。 

这 也 就 是 为 什么 如 果 不 采 用 各 向 异性 采样 时 
图 形 视角 最 远 端 失真 最 厉害 的 原因 。 如 果 仔 细 观 察 一 
下 图 8-179 左 侧 的 场景 会 发 现 ， 位 于 视角 正 前 方 的 天 
花 板 失真 不 算 严重 ， 而 位 于 视角 左上 方 的 墙角 处 天 花 
板 失真 最 厉害 ， 其 原因 是 因为 这 里 被 透视 扭曲 得 最 严 
重 ， 而 三 线性 过 滤 根 本 没 考虑 跟随 透视 形状 来 变化 采 
样 范围 ， 依 然 用 落 点 周围 4 个 纹 素来 采样 ， 这 样 就 丢 
失 了 更 多 信息 ， 导 致 失真 。 

如 图 8-183 所 示 ， 如 同 三 线性 采样 一 样 ， 各 向 异 
性 采样 也 可 以 在 相 邻 的 两 个 Mipmap 的 LOD 层 上 分 别 
进行 ， 比 如 各 以 4X 倍率 采样 一 个 LOD 层 ， 然 后 将 得 
到 的 值 进行 加 权 平 均 。 具 体 按 照 什么 方式 来 采样 ， 程 
序 可 以 灵活 选择 ， 方 式 各 不 相同 。 


图 8-183 各 向 异性 采样 原理 示意 图 
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提示 > 


实际 上 ， 采 样 范围 并 不 是 严格 的 正方 形 或 者 长 
方形 ， 而 是 跟随 透视 图 形 的 变化 ， 越 靠近 观察 者 的 
地 方 会 采样 更 多 的 纹 素 ， 因 为 近 处 的 这 些 纹 素 对 最 
终 落 点 的 影响 更 大 。 在 实际 的 工程 实现 中 ， 存 在 诸 
多 的 简化 版 本 ， 至 于 每 一 种 图 形 泻 业 程序 、 产 品 具 
体 怎 么 用 ， 还 得 具体 分 析 。 


各 向 异性 采样 的 具体 实现 方式 由 多 种 。 图 8-183 
中 依然 使 用 了 方形 的 Mipmap， 在 采样 的 时 候 再 去 改变 
采样 范围 的 形状 。 而 如 图 8-184 所 示 ， 为 何不 在 一 开始 
接生 成 不 同 角度 透视 扭曲 之 后 的 Mipmap 呢 ?这 样 的 
， 采 样 的 时 候 ， 算 出 当前 视角 扭曲 到 了 什么 程度 ， 
然后 从 套图 中 选择 对 应 角度 的 图 案 ， 然 后 依然 使 用 方 
形 区 域 来 采样 选 出 的 图 案 就 可 以 ， 因 为 Mipmap 中 的 纹 
素 已 经 按照 对 应 的 角度 扭曲 过 了 ， 殊 途 同 归 。 这 样 可 
以 节省 一 部 分 计算 资源 。 这 种 被 称 为 Rip-Mapping， 但 
是 目前 很 少 有 这 样 的 实现 ， 因 为 固定 的 扭曲 角度 图 片 
用 起 来 不 灵活 ， 还 是 现场 计算 更 灵活 。 


ва ш 


图 8-184 Rip-Mapping 


对 于 Minification 场 景 ， 也 就 是 原始 纹理 相对 屏 
幕 面 元 而 言 小 了 ， 或 者 说 从 采 样 的 场景 ， 此 时 情况 刚 
好 反 过 来 了 ， 会 有 多 个 像素 不 得 不 共享 使 用 同一 个 纹 
素 的 颜色 ， 多 个 像素 值 会 落 到 同一 个 纹 素 ， 那 就 相当 
于 该 纹 素 被 复制 了 多 份 到 多 个 像素 中 ， 结 果 就 是 产生 
了 马赛 克 。 也 就 是 说 ， 当 镜头 拉 近 一 个 表面 之 后 ， 表 
面 上 的 贴图 就 产生 了 马赛 克 模 糊 ， 不 精细 。 这 种 场景 
下 ， 依 然 可 以 采用 双 线 性 插值 的 方式 取 平 均 颜 色 来 补 
偿 ， 让 相 邻 的 马赛 克 的 边缘 不 那么 明显 ， 没 有 什么 好 
办 法 ， 因 为 无 论 什么 算法 都 不 可 能 精确 的 生成 更 多 信 
息 ， 而 只 能 猜 出 可 能 的 信息 〈 插 值 ) 。 要 彻底 解决 这 
个 问题 ， 就 需要 增加 原始 贴图 的 纹 素 分 辨 率 ， 比 如 假 
设 屏幕 最 大 分 辨 率 为 4k， 则 纹 素 至 少 也 得 是 4k 分 辩 
率 ， 这 样 就 算 让 整个 面 元 拉 近 到 布 满 屏幕 ， 也 能 获得 
精细 的 贴图 。 

人 们 将 上 述 这 些 不 同 的 纹理 采样 方式 ， 统 称 为 纹 
理 过 滤 (Texture Filtering) ， 或 者 材质 过 滤 。 所 以 对 
应 的 有 这 些 名 词 : 双 线 性 过 滤 、 三 线性 过 滤 、 各 向 异 
性 过 滤 等 。 执 行 纹理 过 滤 的 程序 模块 则 叫 作 Filter。 
上 文中 介绍 的 这 些 是 比较 常用 的 ， 当 然 ， 人 们 还 研究 
出 很 多 其 他 类 型 的 过 滤器 ， 不 过 ， 最 终 都 是 在 算 力 需 
求 、 存 储 器 空间 耗费 和 最 终 画 面 质量 这 三 者 之 间 取 得 
平衡 。 在 DirectX 3D 11 版 本 的 绘图 API 中 提供 了 如 下 
几 个 选项 ， 如 图 8-185 所 示 。 

纹理 映射 过 程 会 耗费 大 量 的 计算 资源 。 系 统 能 够 
以 多 快 的 速率 进行 纹理 映射 ， 这 个 速率 被 称 为 像素 填 
充 率 /纹理 填充 率 。 

纹理 映射 过 程 是 整个 像素 着 色 阶 段 中 很 关键 的 一 
步 。 除 此 之 外 ， 在 这 一 步 中 还 可 以 对 每 个 像素 进行 后 
期 处 理 ， 比 如 可 以 进一步 增强 光照 效果 。 此 时 对 像素 
的 处 理 更 像 是 对 2D 图 像 的 后 处 理 了 ， 只 不 过 ， 我 们 此 
时 依然 保留 了 每 个 像素 的 z 轴 信息 ， 在 处 理 时 可 以 根 
据 z 轴 信息 做 出 光影 方面 的 计算 。 比 如 投影 ， 无 非 就 
是 将 一 堆 像素 亮度 变 暗 。 那 么 把 哪些 像素 变 暗 ? 当然 
就 要 参考 z 轴 的 信息 ， 来 计算 影子 。 


选项 名 称 具体 描述 
D3D11_FILTER_MIN_MAG_MIP_POINT и sampling for minification, magnification, and mip-level 


Use point sampling for minification and magnification; use linear 
interpolation for mip-level sampling. 

Use point sampling for minification; use linear interpolation for 
magnification; use point sampling for mip-level sampling. 

Use point sampling for minification; use linear interpolation for 
magnification and mip-level sampling. 

Use linear interpolation for minification; use point sampling for 
magnification and mip-level sampling. 

Use linear interpolation for minification; use point sampling for 
magnification; use linear interpolation for mip-level sampling. 

Use linear interpolation for minification and magnification; use point 
sampling for mip-level sampling. 

Use linear interpolation for minification, magnification, and mip-level 
sampling. 

Use anisotropic interpolation for minification, magnification, and mip- 
level sampling. 


图 8-185 DirectX3D 11 API 中 提供 的 几 种 纹理 过 滤 选 项 


D3D11_FILTER_MIN_MAG_POINT_MIP_LINEAR 


D3D11_FILTER_MIN_POINT_MAG_LINEAR_MIP_POINT 


D3D11_FILTER_MIN_POINT_MAG_MIP_LINEAR 


D3D11_FILTER_MIN_LINEAR_MAG_MIP_POINT 


D3D11_FILTER_MIN LINEAR_MAG_POINT_MIP_LINEAR 


D3D11 FILTER MIN MAG LINEAR MIP POINT 


D3D11_FILTER_MIN_MAG MIP_LINEAR 


D3D11_FILTER_ANISOTROPIC 


整个 像素 着 色 阶段 被 称 为 Pixel Shading。Shade 的 
意思 是 “影子 ”， 泛 指明 上 暗 分 离 有 层次 感 。 模 型 从 一 
个 2D 轮 廓 ， 到 Vertex Lighting 处 理 完 后 的 石膏 像 ， 再 
到 表面 具有 丰富 色彩 ， 这 整个 过 程 就 是 一 个 Shading 的 
过 程 ，Coloring 也 被 统称 为 Shading。 所 以 说 ，Vertex 
Lighting 其 实 也 可 以 被 称 为 Vertex Shading， 实 际 上 
人 们 也 的 确 是 按照 后 者 方式 来 叫 的 。 负 责 给 石膏 像 
上 色 的 程序 模块 ， 就 叫 作 Shader 了 。 那 么 ， 在 Vertex 
处 理 阶 段 计算 光 照 的 程序 模块 就 可 以 被 称 为 Vertex 
Shader， 其 只 负责 计算 每 个 项 点 的 光照 ;而 在 Pixel 
阶段 针对 每 个 像素 做 纹理 映射 、 后 期 光照 等 其 他 特 
效 ， 从 而 计算 各 自 像 素颜 色 的 程序 模块 就 叫 作 Pixel 
Shader。 人 们 并 没有 将 Shader 翻 译 成 “阴影 器 ”， 而 
是 统一 翻译 成 了 “着 色 器 ”， 于 是 有 了 “顶点 着 色 
器 ”和 “像素 着 色 器 ”。 这 也 是 合理 的 ， 因 为 阴影 也 
属于 颜色 ， 最 终 像 素 只 有 颜色 ， 其 他 名 词 只 是 人 为 封 
装 而 已 ， 比 如 阴影 、 亮 度 、 饱 和 度 、 透 明度 ， 等 等 。 

上 文中 只 是 做 了 简单 的 纹理 映射 过 程 ， 或 者 说 贴 
图 过 程 。 实 际 上 ，Shader 还 可 以 做 更 多 的 后 期 特效 处 
理 ， 我 们 后 文中 再 介绍 。 


程序 将 3D 模 型 栅 格 化 之 后 ， 后 续 的 一 切 处 理 其 
实 都 是 对 2D 平 面 图 的 处 理 ， 其 与 2D 图 片 处 理 几 乎 
没有 区 别 了 。 也 就 是 说 ，2D 游 戏 画面 的 泻 染 其 实 也 
需要 经 过 栅 格 化 及 后 续 的 步骤 ， 包 括 光 照 效 果 、 纹 
理 映射 、 阴 影 处 理 等 。 可 能 你 会 有 疑问 ，2D 图 片 哪 
来 的 光照 和 阴影 7 这 些 不 都 是 应 该 在 3D 世 界 中 才 存 
在 的 么 ? 问 出 这 个 问题 ， 证 明 你 还 需要 继续 闭 目 仔 
细 体 会 。 前 文中 说 过 ， 人 脑 感 知 到 的 一 切 影 像 只 不 
过 是 3D 世 界 在 2D 世 界 (或 者 说 你 的 视网膜 ) 上 的 
投影 。 而 2D 游 戏 画 面 与 3D 画 面相 比 ， 唯 一 区 别 就 
是 其 并 不 是 从 3D 模 型 投影 出 来 的 ， 而 可 以 天 然 就 是 
一 幅 2D 图 片 ， 从 这 里 开始 ，3D 和 2D 变 得 一 样 了 。 
那么 ， 在 2D 图 片上 如 何 产生 光照 ? 方法 与 3D 的 做 
法 相同 ， 记 录 法 线 即 可 。 比 如 将 2D 图 片 内 需要 光照 
地 方 的 法 线 信 息 记 录 到 一 个 文件 内 ， 泻 染 的 时 候 ， 
程序 根据 光源 位 置 和 法 线 信 息 算 出 哪个 点 的 亮度 需 
要 提升 即 可 。 其 实 3D 画 面 也 是 这 样 处 理 的 。 既 然 
如 此 ，3D 的 意义 何在 ? 为 何不 直接 做 成 2D 游 戏 ? 
这 个 问题 终于 触 碰 到 了 本 质 。2D 游 戏 中 你 是 无 法 
将 视角 进行 任意 角度 旋转 而 观察 整个 游戏 世界 全 貌 
的 ，2D 永 远 只 给 你 一 个 视角 来 观察 ， 因 为 ，2D 游 
戏 没 有 z 轴 信息 ， 也 不 需要 计 计 算 一 系列 与 z 轴 相关 
的 各 种 几何 坐标 变换 。 为 了 实现 任意 视角 旋转 ，3D 
游戏 需要 保存 模型 的 z 轴 坐标 ， 并 根据 当前 视角 ， 
重新 将 3D 域 投影 到 2D 域 ， 也 就 是 做 从 模型 空间 到 
视窗 空间 的 一 整套 坐标 变换 ， 生 成 当前 视角 下 的 2D 
画面 ， 后 续 再 进行 与 2D 游 戏 类 似 的 后 处 理 过 程 。 所 
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以 ， 如 果 将 你 的 理解 角度 转换 到 一 切 都 是 2D 图 像 展 
现 出 来 的 3D 假 象 的 话 ， 你 会 从 本 质 上 理解 计算 机 图 
形 处 理 的 世界 。 如 果 你 能 够 像 冬 瓜 哥 一 样 ， 看 到 一 
幅 图 像 时 ， 禁 不 住 把 眼睛 靠近 到 显示 器 上 去 分 辨 出 
它 的 每 个 像素 的 颜色 ， 并 把 整个 像素 着 色 的 执行 过 
程 在 你 脑子 里 转 几 圈 ， 导 致 旁 边 围观 群众 认为 怎么 
有 个 傻子 在 亲吻 显示 器 ， 那 你 真 的 已 经 得 道 了 。 


8.2.6.5 遮挡 判断 阶段 /Testing 


至 此 ， 所 有 模型 已 经 有 了 颜色 和 对 应 的 光照 明 
暗 层 次 ， 这 一 帧 画面 看 上 去 已 经 很 完美 了 ， 是 不 是 
应 该 直接 将 Color Buffer 转 换 为 Frame Buffer (直接 让 
RAMDAC 模 块 转 为 扫描 当前 的 Color Buffer， 这 个 过 
程 被 称 为 Swap Buffer) 播放 到 屏幕 上 了 呢 ? 这 里 还 缺 
了 一 些 操作 步骤 ， 整 个 画面 尚未 完工 。 

1. BURRI (Scissor Test) 

有 时 候 ， 游 戏 设计 师 需 要 把 画面 加 上 一 个 遮 单 
孔 ， 只 让 用 户 看 到 这 个 遮 单 孔 后 面 的 图 像 ， 被 遮 单 的 
地 方 不 做 显示 。 典 型 的 比如 有 些 游戏 中 ， 在 屏幕 下 方 
一 般 会 有 一 些小 窗口 ， 里 面 是 一 些 3D 人 物 角色 的 头 
像 ， 而 且 头 像 还 在 不 断 摇头 晃 脑 地 运动 ， 运 动 到 遮 单 
外 面 的 部 分 就 会 被 挡住 ， 给 人 的 感觉 就 像 是 在 通过 这 
个 小 孔 来 观察 内 部 的 角色 模型 一 样 。 如 图 8-186 下 方 
的 人 物 头像 所 示 。 


图 8-186 下 方 人 物 头像 是 会 动 的 3D 模 型 

这 相当 于 画 中 画 的 效果 ， 要 实现 这 种 效果 ， 可 以 
先 计 算 好 模型 哪个 部 分 将 移动 到 孔 外 ， 然 后 直接 将 对 
应 的 顶点 剔除 掉 ， 也 就 是 直接 在 模型 周围 上 切 一 刀 ， 
只 演 染 留 下 的 部 分 。 或 者 ， 直 接 在 角色 前 面 做 一 个 遮 
单 孔 的 3D 模 型 ， 比 如 一 张 带 有 圆 孔 的 平板 模型 ， 然 后 
把 角色 模型 放置 到 这 个 孔 后 面 去 泻 染 ， 这 样 该 模型 周 
绰 的 不 想 让 人 看 到 的 部 分 自然 会 被 遮 音 挡住。 但 是 这 
样 做 耗费 资源 太 大 ， 遮 单 孔 每 次 还 要 绘制 出 来 ， 原 本 
很 简单 的 需求 被 复杂 化 了 。 为 此 ， 人 们 直接 在 2D 域 处 
理 这 个 问题 ， 也 就 是 直接 生成 一 张 庶 单 ， 物 理 上 无 非 
就 是 记录 这 个 孔 的 四 角 坐 标 值 ， 演 染 好 的 模型 像素 点 
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坐标 如 果 落 入 这 个 区 域 ， 就 被 写 入 屏幕 像素 中 显示 ， 
如 果 没 有 落 入 这 个 区 域 ， 就 直接 不 显示 。 这 个 过 程 就 
是 所 谓 的 测试 过 程 ， 针 对 每 个 欲 显示 的 像素 ， 到 这 个 
遮 单 上 测试 过 滤 一 遍 。 这 个 过 程 就 相当 于 : 你 要 求 你 
所 看 到 的 世界 不 是 全 景 的， 而 是 要 看 到 一 个 圆 形 的 世 
界 ， 但 是 你 并 不 是 要 求 这 个 世界 本 身 变 成 圆 形 的 ， 而 
是 戴 上 一 副 黑 眼镜 ， 然 后 在 眼镜 上 面 开 个 孔 。 如 图 
8-187 所 示 为 前 裁 遮 挡 测试 的 示意 图 。 

值得 一 提 的 是 ， 剪 裁 遮 单 的 作用 域 并 非 整个 屏 
幕 ， 也 就 是 说 并 非 整 个 屏幕 上 只 露出 这 一 个 孔 。 其 作 
必 域 是 一 个 或 者 几 个 模型 ， 由 程序 指定 。 所 以 ， 如 图 
8-187 右 侧 所 示 ， 被 遮 单 的 这 个 小 场景 可 以 在 大 场景 
中 存在 ， 形 成 画 中 画 感 观 。 

剪裁 遮挡 方式 只 支持 矩形 窗口 ， 如 果 要 做 更 复 
杂 的 遮挡 ， 需 要 使 用 下 文中 介绍 的 第 板 遮 挡 方式 来 
处 理 。 

2. Alpha 透 明 测试 《Alpha Test) 

还 有 些 时 候 ， 人 们 需要 让 一 个 面 元 的 一 部 分 变 
得 透明 ， 能 通过 它 看 到 后 面 模型 的 表面 。 这 样 ， 需 
要 首先 对 纹理 需要 被 透明 化 处 理 的 纹 素 部 分 的 RGBA 
〈 红 / 绿 / 蓝 /透明 度 ) 值 中 的 A〈Alpha) 值 进行 修改 ， 
比如 ， 改 为 全 1。 然 后 在 程序 中 定义 : 凡是 Alpha 值 大 
于 0.5 的 像素 点 不 写 入 Color Buffer。 这 样 ， 当 程序 在 
将 任何 像素 值 写 入 Color Buffer 之 前 ， 都 对 该 像素 的 
Alpha 值 与 0.5 比 对 一 下 ， 那 些 被 视 为 透明 的 像素 也 就 
不 会 写 入 到 屏幕 上 ， 这 样 自然 就 保留 并 露出 了 这 些 像 
素 后 方 的 像素 。 如 图 8-188 所 示 ， 先 将 窗户 纹理 中 白 
色 的 部 分 的 纹 素 的 Alpha 值 改 为 全 1， 其 他 不 透明 的 地 


方 为 0。 然 后 启用 Alpha 测 试 ， 并 规定 当 欲 写 入 像素 的 
Alpha 值 大 于 0.5 时 ， 则 不 写 入 该 像素 ， 否 则 写 入 。 然 
后 泻 染 背 景 ， 再 泻 染 窗户 ， 最 终 可 以 获得 透明 效果 。 
值得 一 提 的 是 ， 利 用 Alpha 测 试 不 仅 可 以 实现 
透明 ， 还 可 以 有 其 他 判断 结果 组 合 。 比 如 3D 绘 图 库 
OpenGL 就 提供 了 如 下 的 Alpha 测 试 函 数 和 参数 : 通过 
glEnable (СТ, АІРНА ТЕЅТ) 启用 Alpha 测 试 ， 通 
过 GLDisable (GL_ALPHA_TEST) 禁用 Alpha 测 试 。 
设置 Alpha 测 试 条 件 的 函数 : glAlphaFunc (GLenum _ 
func, GLclampf ref) ， 其 中 func 是 参数 的 比较 方 
式 ，ref 是 参数 。 可 以 取 的 参数 以 及 含义 如 下 : GL_ 
ALWAYS (始终 通过 ) 、GL МЕУЕВ (始终 不 通 
过 ) 、GL_ LESS (小 于 则 通过 ) , ОГ _LEQUAL 
(小 于 等 于 则 通过 ) 、GL_EQUAL (等 于 则 通 
过 ) СІ GEQUAL (大 于 等 于 则 通过 ) ， 以 及 GL_ 
NOTEQUAL (不 等 于 则 通过 ) 。 比 如 glAlphaFunc 
(GL_LESS, 0.5f) 表示 当 检 测 到 当前 处 理 的 像素 
Alpha 值 小 于 0.5f ( 捷 示 浮 点 数 的 意思 ) 时 则 通过 测 
试 ， 绘 制 到 Color Buffer 中 ， 也 就 是 说 ， 窗 户 纹理 中 不 
透明 的 地 方 会 被 绘制 ， 透 明 的 地 方 不 被 绘制 。 
3.Z 迹 挡 测试 
在 z 轴 上 被 遮挡 的 像素 ， 是 必须 不 能 显示 出 来 的 
(前 方 透明 除外 ) 。Z 测 试 就 是 用 来 保证 这 一 点 的 。 
现在 来 思考 图 8-154 中 所 示 的 场景 。 一 个 3D 场 景 
世界 中 可 能 包含 有 众多 模型 ， 比 如 起 伏 的 山 弯 或 者 地 
面 ， 地 面 上 茂盛 的 植物 以 及 建筑 、 人 物 等 物品 。 试 想 
一 下 ， 如 果 你 是 一 个 画家 ， 你 在 画布 上 作画 ， 你 会 怎 
么 处 理 物体 遮挡 问题 ? 回答 : 当然 是 先 把 背景 画 好 ， 
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图 8-187 ”剪裁 遮挡 测试 结果 示意 图 
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图 8-188 ”利用 Alpha 透 明 测 试 实现 透明 处 理 


比如 蓝天 白云 和 远 处 的 群 山 ， 最 后 画 离 视 角 距 离 最 近 
的 物体 ， 这 些 物体 的 颜色 会 将 背景 颜色 覆盖 掉 ， 自 然 
就 挡住 了 背景 ， 也 就 是 按照 图 层 的 先后 来 绘制 ， 这 与 
2D 图 形 演 染 时 采用 的 方式 是 一 样 的。 是 的 ， 这 是 最 简 
单 的 办 法 。 在 这 个 方法 基础 上 ， 可 以 进行 优化 ， 比 如 
根本 不 需要 画 出 原本 就 需要 被 遮挡 的 背景 部 分 ， 这 样 
就 节省 了 笔墨 。 所 以 才 有 了 早期 Z 吻 除 这 个 处 理 方法 
〈 见 前 文 ) 。 但 是 你 后 续 突 然 决定 在 这 块 空 画布 上 画 
一 个 透明 物体 ， 这 样 就 不 行 了 ， 早 期 没 画 出 来 的 空缺 
部 分 就 会 被 看 到 。 

如 果 必 须 按照 顺 z 轴 坐标 的 远近 顺序 来 泻 染 的 
话 ， 有 个 不 方便 的 地 方 ， 就 是 一 旦 画 好 了 上 面 的 
图 层 模型 ， 那 么 位 于 远 处 〈 下 方 ) 图 层 中 的 模型 
对 应 的 像素 想 要 再 改动 的 话 〈 比 如 加 一 些 后 处 理 效 
RO 的 话 ， 就 得 预先 算 好 该 模型 到 底 哪 些 地 方 被 庶 
挡 了 ， 被 遮挡 的 部 分 的 像素 决 不 能 改动 ， 否 则 就 破 
坏 了 上 层 模型 的 颜色 了 。 再 者 ， 严 格 按照 图 层 顺 序 
来 泻 染 ， 不 利于 实现 并 行 性 。 另 外 ， 即 使 是 同一 个 
模型 ， 也 有 正面 和 背面 ， 必 须 保 证 模型 的 背面 先 泻 
染 ， 再 泻 染 正面 ， 这 一 点 做 起 来 也 很 费劲 。 更 好 的 
方式 是 ， 可 以 让 多 个 模型 乱 序 并 行 泻 染 ， 同 一 个 模 
型 的 正面 和 背面 并 行 乱 序 泻 染 ， 而 最 终 还 可 以 实现 
前 面 的 像素 挡住 后 面 的 。 

如 果 为 每 个 屏幕 上 的 像素 记录 一 个 “当前 已 被 
写 入 像素 对 应 的 z 轴 坐标 值 ” 的 话 ， 就 可 以 解决 这 个 
问题 ， 这 个 用 于 保存 所 有 像素 当前 z 轴 坐标 值 的 地 方 
被 称 为 z-buffer 〈 深 度 缓冲 ， 或 者 Z 缓 冲 ) 。 该 缓冲 记 
录 的 所 有 像素 的 z 坐 标 值 在 初始 时 被 全 部 设置 为 无 穷 
大 ， 比 如 全 1。 

这 样 之 后 ， 我 们 允许 模型 被 乱 序 演 染 ， 第 一 个 被 
泻 染 好 的 像素 点 再 被 写 入 Color Buffer 中 之 前 ， 先 读 出 
z-buffer 中 与 之 对 应 的 记录 项 ， 发 现 其 是 无 穷 大 ， 证 明 
该 像素 尚 无 颜色 ， 则 直接 将 泻 染 好 的 像素 颜色 写 到 屏 
幕 上 对 应 位 置 ， 并 在 z-buffer 中 对 应 的 位 置 将 该 像素 
点 在 模型 中 对 应 的 z 坐 标记 录 下 来 (覆盖 上 一 个 记录 
的 z 坐 标 值 ) 。 后 续 任 意 位 置 模型 的 任意 像素 点 被 泻 
染 好 之 后 ， 也 都 不 能 直接 不 加 判断 地 写 入 屏幕 上 ， 而 
是 每 次 都 要 先 读 取 z-buffer 中 对 应 位 置 已 经 被 保存 的 上 
一 个 z 坐 标的 值 ， 并 与 当前 欲 写 入 像素 的 z 坐 标 比 对 。 
如 果 当 前 欲 写 入 像素 的 z 坐 标 值 大 于 上 一 个 被 记录 的 
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z 坐 标 值 ， 则 可 以 判断 出 欲 写 入 像素 位 于 后 方 ， 被 遮 
挡 ， 则 放弃 写 入 ， 保 留 当前 屏幕 像素 颜色 不 变 ， 如 果 
欲 写 入 像素 的 z 坐 标 值 大 于 上 一 次 记录 的 z 坐 标 值 ， 则 
表明 和 欲 写 入 像素 位 于 上 一 个 像素 的 前 方 ， 则 直接 将 其 
颜色 覆盖 之 前 的 颜色 。 针 对 每 一 个 欲 写 入 像素 ， 都 做 
这 种 判断 ， 最 终 就 可 以 维持 所 有 模型 的 遮挡 关系 。 

z-buffer 的 运作 过 程 如 图 8-189 所 示 。 蓝 色 模 型 由 
于 正 对 视角 ， 其 面 元 中 所 有 像素 的 z 坐 标 值 假设 都 为 
5， 其 被 泻 染 时 ， 每 生成 一 个 像素 点 颜色 ， 便 读 出 对 
应 像素 在 z-buffer 中 记录 的 z 坐 标 ， 读 出 的 坐标 如 果 为 
1，5>1， 所 以 丢弃 该 像素 点 颜色 ,保留 已 写 入 的 上 一 
个 颜色 (绿色) ， 读 出 的 坐标 如 果 为 6 或 者 7 或 者 无 穷 
大 ， 则 用 蓝 色 覆 盖 该 像素 颜色 。 

其 实 整个 判断 过 程 很 简单 ， 用 这 个 伪 代 码 就 可 以 
实现 : if z(x,y)<zbuffer[x][y]; write to pixel at (x,y); 
zbuffer[x][y]=z(x,y)。 这 个 利用 z-buffer 来 判断 物体 迹 
挡 关 系 的 过 程 ， 被 称 为 z-testing (深度 测试 ) 。 不 
过 ， 冬 瓜 哥 认为 其 叫 作 遮 挡 判断 ， 更 直观 ， 当 然 ， 也 
更 俗 。 

试想 一 下 ， 如 果 读 出 z-buffer 发 现 上 一 次 记录 的 z 
坐标 也 为 5， 怎 么 办 ? 那 证 明 有 另外 一 个 模型 与 该 模 
型 发 生 了 部 分 重合 合体 。 一 般 情况 下 ， 这 属于 bug， 
不 应 该 发 生 ， 也 有 可 能 是 故意 为 之 ， 此 时 需要 按照 先 
后 顺序 来 泻 染 ， 后 泻 染 的 覆盖 先 演 染 的 。 或 许 还 有 一 
种 情况 ，z 轴 坐标 的 精度 不 够 高 。 比 如 z 轴 坐标 为 整数 
坐标 ， 范 围 从 0 一 63 〈 精 度 为 Logz64=6 位 ) ， 那 就 意 
味 着 最 多 可 以 放置 64 个 图 层 ， 假 设 每 个 模型 平均 占用 
8 个 z 坐 标 ， 也 就 是 相对 厚度 不 能 超过 8， 那 么 整个 场 
景 在 同样 的 x/y 坐 标 位 置 上 ， 沿 着 纵深 方向 最 大 可 放置 
64/8=8 个 这 样 的 模型 。 如 果 要 放置 第 9 个 模型 ， 由 于 
两 个 整数 之 间 无 法 再 被 分 隔 ， 所 以 其 坐标 就 会 与 其 他 
模型 重 达 。 这 个 现象 被 俗称 为 z-fighting。 而 如 果 z 从 
标 轴 精度 足够 高 ， 比 如 为 24 位 ， 那 就 能 够 足够 灵活 展 
示 更 丰富 的 场景 层次 了 。 目 前 实现 中 一 般 z 坐 标 精度 
为 24 位 。 

每 泻 染 一 帧 之 前 ， 必 须 将 z-buffer 清 空 ， 否 则 本 帧 
的 内 容 会 与 上 一 帧 重 登 。 用 户 可 以 选择 打开 或 者 关闭 
Z 遮 挡 测 试 ， 关 闭 之 后 ， 程 序 必须 自行 控制 泻 染 顺序 
才能 得 到 正确 结果 ， 否 则 会 出 现 如 图 8-190 左 侧 所 示 
的 情况 。 
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图 8-189”z-buffer 的 运作 原理 示意 图 
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图 8-190 ”关闭 和 打开 Z 遮 挡 测试 


至 此 ， 被 挡住 的 那些 像素 的 z 坐 标 是 不 是 就 再 也 
不 知道 了 ? 非 也 ， 所 有 已 泻 染 好 的 像素 的 z 坐 标 依然 


被 保存 在 Position Buffer 中 。 
4. HERIR (Stensil Test) 
上 文中 介绍 的 剪裁 遮 项 ， 其 粒度 太 大 ， 


不 够 精 


细 ， 而 且 它 只 支持 矩形 区 域 。 有 些 时 候 ， 人 们 需要 对 
图 形 进行 更 加 精细 的 遮蔽 ， 比 如 ， 要 将 图 形 多 个 不 同 
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个 像素 为 粒度 进行 遮蔽 ， 满 足 上 述 需 求 。 
毫 无 疑问 ， 要 达到 单个 像素 粒度 的 遮蔽 ， 
为 屏幕 上 的 每 个 像素 维护 一 个 数值 ， 比 如 1 或 


就 必须 
者 0。 所 


有 像素 的 数值 形成 一 张 得 网 ， 新 泻 染 出 来 的 像素 全 都 
与 这 个 筛 网 比 对 ， 比 如 筛 网 中 对 应 该 像素 的 位 置 如 果 
是 1， 那 就 绘制 到 屏幕 上 ， 如 果 是 0， 就 不 绘制 ， 如 图 
8-191 所 示 。 这 个 像素 筛 网 被 称 为 Stencil Buffer。 这 也 
是 为 何其 称 为 “ 筛 板 ”的 原因 。 更 多 的 人 习惯 将 其 翻 
译 为 “模板 ”。 


图 8-191 ”使 用 第 板 遮 项 实现 的 效果 


图 8-191 所 示 的 效果 似乎 毫 无 用 处 ， 在 实际 中 有 
谁 会 把 图 像 弄 得 这 样 支离破碎 呢 ? 不 过 ， 我 们 来 举 一 
个 更 接地 气 的 例子 。 如 图 8-192 左 侧 所 示 ， 我 们 要 实 
现 一 个 正方 体 在 一 个 黑色 镜面 上 ， 镜 面 产生 了 该 正方 
体 的 反射 图 形 。 这 幅 图 片 应 该 怎么 泻 染 ? 假设 ， 我 们 


先 泻 染 镜面 ， 然 后 泻 染 上 方正 方 体 ， 再 泻 染 


E 方 体 的 


反射 正方 体 ， 此 时 ， 该 正方 体 必须 位 于 镜面 


上 方 ， 而 


不 是 被 镜面 挡住 。 但 是 ，Z 遮 挡 测 试 一 定 会 将 该 正方 
体 放 置 到 镜面 的 后 面 ， 这 样 就 无 法 形成 反射 效果 了 。 
为 此 ， 我 们 需要 做 一 步 关键 的 操作 ， 也 就 是 ， 当 演 染 
黑色 镜面 的 时 候 ， 仍 然 做 Z 遮 挡 测试 ， 但 是 ， 却 不 将 
镜面 对 应 像素 的 Z 坐 标 值 写 入 z-buffer。 这 样 做 产生 的 
效果 就 是 ， 当 下 方正 方 体 被 演 染 时 ， 其 做 Z 谈 挡 测试 
时 ， 不 会 察觉 到 黑色 镜面 的 存在 ， 所 以 程序 会 将 该 
正方 体 泻 染 到 镜面 上 方 ， 成 功 挡住 了 镜面 ， 形 成 图 
8-192 中 左 三 所 示 的 效果 。 

至 此 ， 还 需要 将 下 方正 方 体位 于 镜面 外 面 的 部 分 
遮蔽 掉 。 可 以 看 到 ， 这 块 区 域 是 个 不 规则 形状 ， 剪 裁 
遮蔽 是 做 不 到 的 ， 只 能 用 筛 板 遗 蔽 手段 。 也 就 是 说 ， 
如 果 能 够 生成 一 张 筛 板 ， 让 镜面 内 的 反射 区 域 占 用 的 
像素 值 都 为 1， 而 其 他 部 分 全 部 为 0， 那 么 当 再 次 演 染 
反射 正方 体 时 ， 执 行 第 板 测试 比 对 ， 这 个 正方 体 就 只 
会 留 下 镜面 内 部 区 域 的 像素 ， 然 后 再 对 这 些 像素 做 亮 
度 调 暗 处 理 ， 就 能 成 功 实现 图 8-192 中 最 右 侧 所 示 的 
最 终 效果 。 现 在 的 关键 问题 是 ， 如 何 确定 镜面 内 部 的 
反射 区 域 都 占用 了 哪些 像素 ， 从 而 将 Stencil Buffer 中 
对 应 的 值 置 为 1。 

换个 角度 思考 ， 镜 面 整体 都 会 反射 其 上 方 物体 ， 
如 果 把 整个 镜面 占用 的 像素 遮蔽 值 都 设置 为 1 (被 上 
方正 方 体 挡住 的 部 分 除外 ) ， 而 不 用 去 细 分 当前 的 反 
射 区 域 位 于 哪里 ， 一 样 可 以 实现 上 述 效 果 。 这 样 ， 问 
题 就 变 成 了 ， 如 何 确 定 镜面 未 被 上 方正 方 体 挡住 的 那 
些 像 素 的 位 置 。 这 样 ， 问 题 一 下 子 变 得 简单 了 。 

可 以 通过 这 种 办 法 解决 :禁用 筛 板 测试 ， 并 清空 
之 前 第 板 缓冲 中 所 有 值 ， 然 后 演 染 上 方 的 正方 体 ， 再 
启用 第 板 测试 ， 初 始 化 一 张 全 0 的 Stencil Buffer, 
然后 开始 绘制 镜面 。 由 于 已 经 启用 了 筛 板 测 试 而 且 第 
板 值 全 为 0( 全 不 透 过 ) ， 那 么 镜面 就 不 可 能 显示 在 
屏幕 上 ， 所 以 ， 此 时 要 做 特殊 处 理 ， 绘 制 镜面 的 时 候 
忽略 筛 板 值 。 镜 面 被 泻 染 时 ， 虽 然 不 更 新 Z 缓 冲 了 ， 
但 是 依然 要 执行 Z 遮 挡 测试 〈 与 当前 Z 缓 冲 中 的 Z 坐 标 
值 相 比较 ) ， 从 而 使 被 上 方正 方 体 挡住 的 部 分 不 被 显 
示 。 我 们 顺手 利用 一 把 Z 遮 挡 测 试 的 过 程 ， 加 一 些 逻 
辑 进去 ， 让 程序 针对 每 个 镜面 像素 这 样 去 处 理 : 如 果 
该 像素 的 Z 测 试 不 通过 ， 也 就 是 被 挡住 了 ， 则 保持 得 
板 缓冲 中 对 应 像素 的 值 不 变 ， 对 应 像素 的 值 还 是 0; 
而 如 果 该 像素 通过 了 Z 测 试 ， 证 明 没 被 挡住 ， 则 顺手 
将 筛 板 缓冲 中 对 应 该 像素 的 值 变 成 1。 最 终 ， 就 可 以 
实现 如 图 8-193 所 示 的 情形 。 


图 8-192 ” 泻 染 镜面 反射 的 过 程 示意 图 
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然后 ， 开 始 绘制 下 方 的 反射 正方 体 ， 并 规定 : W 
染 每 个 像素 时 ， 凡 是 发 现 筛 板 缓冲 中 对 应 该 像素 的 值 
为 1， 此 像素 通过 ， 显 示 到 屏幕 ， 如 果 缓 冲 中 对 应 该 
像素 的 值 为 0 则 不 通过 。 最 终 ， 就 可 以 实现 如 图 8-192 
最 右 侧 的 效果 了 。 当 然 ， 别 忘 了 给 这 批 像素 做 点 颜色 
处 理 ， 比 如 可 以 将 正方 体 颜 色 与 镜面 颜色 做 对 应 的 混 
合 操作 ， 这 样 对 应 区 域 的 颜色 就 变 得 更 黑 一 些 了 。 所 
以 ， 混 合 操作 将 是 整个 像素 着 色 的 最 后 一 步 ， 我 们 下 
文中 再 介绍 。 


筛 板 缓冲 中 的 值 一 般 并 非 只 有 1 位 ， 而 是 有 8 
位 。 其 与 Z 缓 冲 中 的 24 位 刚好 合 起 来 为 32 位 ， 如 果 
采用 外 置 3D 加 速 卡 进行 绘图 ， 这 两 个 缓冲 也 是 被 放 
在 一 起 的 。 


对 上 述 这 个 过 程 ，3D 绘 图 库 OpenGL 中 使 用 下 面 
这 些 函 数 和 参数 来 实现 : 

glEnable (GL STENCIL ТЕЅТ); 

// 告 诉 openGL 启 用 筛 板 测试 ; 

glDisable (6Ъ ЅТЕМСІІ TEST); 

// 告 诉 openGL 禁 用 筛 板 测试 ; 

glStencilFunc (GL_LESS, 3, mask); 

// 告 诉 0penGL 筛 板 缓冲 中 当前 像素 值 小 于 3 则 通过 。 

其 中 ，mask 参 数 的 作用 是 ， 比 如 某 个 像素 筛 板 值 
为 5 (二 进 制 101) ， 而 mask 的 二 进 制 值 为 00000011， 
表明 只 比较 最 后 两 位 ，5 的 最 后 两 位 为 01， 所 以 ， 
第 板 值 只 要 小 于 3 而 不 是 5， 就 通过 。 除 了 GL_LESS 
之 外 ， 还 有 其 他 参数 ， 比 如 上 文中 要 实现 强制 通过 
测试 ， 则 对 应 参数 为 GL_ALWAYS 。 此 外 还 有 GL_ 
ALWAYS (始终 通过 ) 、GL_NEVER (始终 不 通 
过 ) 、GL_LESS (小 于 则 通过 ) 、GL_LEQUAL 
(小 于 等 于 则 通过 ) 、GL_EQUAL (等 于 则 通 
过 ) 、GL_ GEQUAL (大 于 等 于 则 通过 ) ， 以 及 GL_ 
NOTEQUAL (不 等 于 则 通过 ) 。 上 文中 介绍 的 Alpha 
测试 也 是 用 这 些 参 数 。 

glStencilOp(fail, zfail, zpass): // 该 函数 指定 了 在 三 
种 情况 下 ， 该 像素 的 筛 板 值 应 该 被 改 成 什么 。 

其 中 ，fail 表 示 筛 板 测 试 未 通过 时 该 如 何 变化 ; 
zfail 表 示 筛 板 测试 通过 但 深度 测试 未 通过 时 该 如 何 变 
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化 ; zpass 表 示 筛 板 测试 和 深度 测试 均 通 过 时 该 如 何 
变化 〈 上 文中 的 镜面 符合 这 一 条 ) 。 如 果 没 有 起 用 筛 
板 测 试 ， 则 认为 筛 板 测试 总 是 通过 ， 如 果 没 有 启用 
深度 测试 ， 则 认为 深度 测试 总 是 通过 。 这 三 个 参数 
可 以 取 如 下 的 值 : GL_KEEP (不 改变 ， 这 也 是 默认 
值 ) GL ZERO (KURO) 、 GL REPLACE (使 用 
glStencilFunc 函 数 中 给 出 的 测试 条 件 中 的 设 定 值 来 代 
蔡 当 前 得 板 值 ) 、 GL INCR (增加 1， 但 如 果 已 经 是 
最 大 值 ， 则 保持 不 变 ) 、 GL _INCR_WRAP〔 增 加 
1， 但 如 果 已 经 是 最 大 值 ， 则 从 0 重新 开始 ) 、 GL_ 
DECR (减少 1， 但 如 果 已 经 是 9， 则 保持 不 变 )、 
GL DECR_WRAP (减少 1， 但 如 果 已 经 是 9， 则 重新 
设 定 为 最 大 值 ) ， 以 及 GL_INVERT (УУ) 。 

上 述 镜面 效果 的 基本 流程 用 OpenGL 伪 代码 表示 
则 是 : 

glDisable (GL_STENCIL ТЕЅТ); 

// 告 诉 openGL 禁 用 筛 板 测试 ; 

绘制 上 方正 方 体 ( ); 

91ЕпаБ1е (бі ЅТЕМСІІ TEST); 

// 告 诉 openGL 启 用 筛 板 测试 ; 

glClear( ); 

// 清 空 筛 板 缓冲 为 全 0; 

glStencilFunc (GL_ALWAYS, 1, 1); 

// 告 诉 0penGL 接 下 来 要 画 的 东西 强制 通过 筛 板 测试 

glStencilOp (GL_KEEP, СЪ КЕЕР, GL_REPLACE); 

// 告 诉 openGL 在 画 下 面 的 东西 时 如 果 对 应 像素 的 筛 板 和 2 

// 都 通过 ， 则 筛 板 缓冲 中 对 应 该 像素 的 值 改 为 1; 

g1DepthMask (GL_FALSE) ; 

// 告 诉 OpenGL 泻 染 接 下 来 的 模型 时 不 更 新 2 缓冲 ; 

绘制 镜面 ( ); 

/ /绘制 过 程 中 ， 屏 幕 上 对 应 像素 的 筛 板 值 会 跟着 更 新 ; 

glDepthMask (GL_TRUE); 

// 告 诉 OpenGL 泻 染 后 续 模型 时 更 新 2 缓冲 ; 

glStencilFunc (GL EQUAL, 1, 1); 

// 告 诉 0penGL 接 下 来 要 画 的 东西 仅 当 对 应 筛 板 值 为 1 是 才 

// 通 过 并 显示 在 屏幕 上 ; 

glStencilOp (GL КЕЕР, СІ КЕЕР, СІ КЕЕР); 

// 告 诉 OpenGL 在 画 下 面 的 东西 时 不 管 发 生 什么 ， 保 持 当 

// 前 屏幕 第 板 值 不 变 ; 

绘制 下 方 的 倒影 正方 体 ( ) ; 

// 实 现 最 终 的 遮 项 效果 ; 

glDisable (GL_STENCIL ТЕЅТ); 

1 /告诉 OpenGL 禁 用 筛 板 测试 ， 这 一 步 可 选 ， 看 接 下 来 要 

// 干 什么 而 定 ; 

同 理 ， 其 实在 Z 遮 挡 测试 时 ，OpenGL 也 提供 了 类 
似 函数 ， 包 括 : 

glDepthMask (бі FALSE/TRUE); 

// 禁 止 或 者 允许 写 入 Zz 缓冲 ; 

glEnable (GL DEPTH TEST)/glDisable (GL_ 
DEPTH TEST); ”// 开 启 或 者 关闭 Zz 测试 ; 
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glDepthFunc( ); 

// 设 置 测试 通过 的 条 件 参数 ( 同上) ; 

glClearDepth ( ); // 清 空 2 缓冲 等 ; 

关于 OpenGL 和 DirectX3D 我 们 会 在 后 文中 介绍 。 

上 述 4 大 遮 珊 过 滤 机 制 被 统称 为 Visibility 测 试 。 
其 发 生 的 顺序 ， 在 不 同 的 绘图 库 中 各 有 不 同 ， 比 如 有 
些 在 最 后 一 步 做 Z 遮 挡 测试 ， 而 有 些 则 把 筛 板 测试 放 
到 最 后 一 步 。 所 有 通过 了 可 见 性 测试 的 像素 就 是 最 终 
要 被 显示 在 屏幕 上 的 像素 ， 然 而 这 些 像素 还 需要 完成 
额外 一 步 的 运算 处 理 ， 也 是 整个 演 染 流程 中 的 最 后 一 
步 ， 即 混合 及 后 处 理 阶 段 。 


8.2.6.6 混合 及 后 处 理 阶 段 /Blending 


演 染 好 的 像素 还 需要 经 过 Alpha Blending 过 程 ， 
与 Color Buffer 中 对 应 位 置 的 像素 进行 透明 混合 操 
作 。 比 如 ， 当 前 要 泻 染 的 像素 是 一 个 半 透 明 像素 ， 其 
Alpha 值 =0.5。 泻 染 该 像素 点 时 ， 需 要 禁止 对 z-buffer 
的 写 入 ， 否 则 ， 一 旦 将 其 z 值 写 入 z-buffer， 如 果 想 要 
在 它 的 远 处 重 又 处 再 次 演 染 其 他 像素 时 ， 后 者 将 直接 
不 予 显 示 ， 这 就 出 现 了 问题 。 正 确 方式 是 ， 该 像素 应 
该 被 显示 ， 只 不 过 需要 与 其 前 方 的 半 透 明 像素 进行 透 
明度 混合 ， 将 该 像素 的 颜色 与 半 透 明 像素 的 颜色 进 
行 相应 的 透明 度 处 理 ， 也 就 是 与 半 透 明 像素 的 Alpha 
值 进行 乘 加 运算 处 理 ， 比 如 《〈 透 明度 x 被 挡住 像素 的 
颜色 ) + 透明 像素 自身 的 颜色 。 实 际 上 有 各 种 不 同 的 
Alpha 混 合算 法 ， 这 里 不 多 介绍 了 。 

Alpha 混 合 操作 与 上 文中 介绍 的 Alpha 透 明 测试 
操作 ， 看 上 去 好 像 是 重复 的 ，Alpha 透 明 测试 完全 多 
余 。 因 为 Alpha 混 合 阶段 一 样 可 以 完成 Alpha 透 明 测 
试 ， 比 如 某 个 像素 如 果 是 完全 透明 的 ， 那 么 它 后 面 被 
挡住 的 像素 的 颜色 一 样 会 被 完全 透 过 来 ， 效 果 一 样 。 
但 是 ，Alpha 透 明 测试 阶段 仅仅 是 做 比较 ， 也 就 是 减 
法 操作 ， 而 Alpha 混 合 阶段 做 的 则 是 乘法 ， 虽 然 最 终 
乘 的 是 1， 但 是 依然 要 载 入 乘法 器 运算 ， 性 能 就 会 相 
对 下 降 。 

Alpha 混 合 阶段 并 不 是 必需 的 ， 它 也 可 以 被 使 能 
或 者 禁止 ， 如 果 当 前 场景 内 完全 不 存在 半 透 明 物 体 ， 
则 可 以 直接 禁止 这 一 步 流程 。 或 者 严格 按照 顺序 来 泻 
染 ， 需 要 做 透明 化 处 理 的 模型 放 到 最 后 泻 染 ， 这 样 就 
只 需要 在 泻 染 透明 物体 时 临时 开启 Alpha 混 合 输出 。 

混合 之 后 ， 还 可 以 对 整个 画面 再 做 一 些 后 期 
处 理 ， 比 如 整体 改变 色调 、 亮 度 ， 或 者 一 些 逻辑 操 
作 ， 实 现 后 期 特效 。 这 些 统称 为 ROP (Rasterization 
Operation) 。 

最 终 处 理 完 的 像素 都 会 被 放 到 Color Buffer 中 ， 
或 者 又 被 称 为 Back Buffer, Backup Framebuffer, 
Second Framebuffer, Dual Buffer, Dual Framebuffer 
等 ， 不 管 被 称 为 什么 ， 你 应 该 知道 存在 这 样 一 个 专门 
用 于 存放 尚未 泻 染 好 的 帧 像素 的 缓冲 区 。 当 一 帧 中 
包含 的 所 有 模型 像素 全 部 被 泻 染 完毕 之 后 ， 程 序 需 


要 执行 切换 Framebuffer 的 过 程 ， 让 负责 视频 DAC 转 
换 的 硬件 模块 〈 比 如 RAMDAC 模 块 ) 转 为 从 Backup 
Framebuffer 读 出 并 向 显示 器 播放 像素 ， 而 之 前 的 
Framebuffer 变 为 Backup Framebuffer， 接 受 新 一 帧 像 
素 的 缓冲 存储 。 


8.2.6.7 ”3D 泻 染 流程 小 结 


在 明白 了 上 文中 介绍 的 3D 图 形 泻 染 基本 流程 之 
后 ， 现 在 你 应 该 闭 上 眼睛 ， 仔 细 回 想 这 样 一 个 场景 ; 
当 你 玩 游戏 的 时 候 ， 旋 转 了 一 下 鼠标 ， 整 个 场景 跟着 
你 旋转 到 另 一 个 角度 ， 这 期 间 都 发 生 了 什么 ? 

上 文中 介绍 的 顶点 坐标 变换 阶段 、 顶 点 光照 计算 
阶段 、 栅 格 化 阶段 、 像 素 着 色 阶 段 、 遮 蔽 测试 阶段 ， 
以 及 混合 及 后 处 理 阶段 ， 只 是 3D 演 染 的 基本 步骤 。 随 
着 硬件 规格 的 不 断 提 升 ， 以 及 3D 图 形 加 速 卡 的 使 用 ， 
这 些 流 程 中 又 嵌入 了 更 多 的 子 步 骤 ， 比 如 ， 在 处 理 顶 
点 时 ， 可 以 将 顶点 位 置 按照 设计 好 的 程序 进行 改变 ， 
从 而 在 模型 表面 生成 更 细致 的 四 凸 效果 ， 比 如 下 文中 
将 要 介绍 的 曲面 细 分 技术 。 在 像素 着 色 阶 段 ， 除 了 基 
本 的 纹理 映射 贴图 之 外 ， 人 们 还 可 以 进行 更 加 细 化 的 
光照 和 纹理 特效 处 理 。 正 因 如 此 ， 人 们 对 3D 图 形 演 染 
流程 每 个 步骤 的 叫 法 也 不 尽 相同 。 

通过 上 文 的 内 容 已 经 可 以 隐约 体会 到 ， 程 序 并 不 
是 要 先 把 一 整 帧 中 所 有 模型 的 项 点、 纹理 贴图 等 信息 
准备 好 ， 再 执行 泻 染 流程 ， 而 是 准备 一 点 就 往 下 一 步 
传递 一 点 ， 下 一 步 就 泻 染 一 点 。 具 体 来 说 ， 过 程 可 以 
是 一 个 模型 一 个 模型 的 (Mesh) 向 下 传递 ， 也 可 以 是 
一 个 模型 内 部 的 一 小 部 分 (Submesh) 为 一 个 批量 处 
理 单元 向 下 传递 ， 比 如 以 64 个 面 元 为 一 组 ， 算 出 其 覆 
盖 的 像素 坐标 ， 然 后 再 给 这 些 面 元 计算 光照 、 纹 理 贴 
图 、 着 色 、 混 合 等 。 整 个 过 程 采用 多 线程 流水 线 化 处 
理 ， 可 提升 吞吐 量 。 

在 8.2.6 节 结尾 的 伪 代 码 中 ， 可 以 体会 到 3D 绘 制 
的 一 些 基 本 套路 。 也 就 是 ， 在 泻 染 某 个 图 形 之 前 ， 
先 要 设 定好 一 些 状态 ， 比 如 是 否 开启 筛 板 /Z/Alpha/ 
剪裁 测试 ? 测试 参数 是 什么 ? 纹理 是 哪个 / 些 ? 这 些 
预先 设 定 的 泻 染 参数 ， 被 称 为 Render State GARIR 
Ж) 。 设 定好 演 染 状态 之 后 ， 则 发 起 真正 的 图 形 绘制 
请 求 ， 比 如 OpenGL 绘 图 库 中 绘制 请 求 所 使 用 的 函数 
是 glIDrawArrays() 或 者 glIDrawElements()。 人 们 将 最 终 
的 绘制 请 求 俗称 为 Draw Call。 

假设 一 个 场景 中 包含 1 万 个 图 元 、5 万 个 顶点 ， 那 
么 ， 该 如 何 向 显卡 发 出 Draw Call 呢 ? 如 果 程 序 每 读 出 
一 个 图 元 就 向 显卡 发 一 个 Draw Call 来 泻 染 。 这 样 可 
以 ， 但 是 会 非常 慢 。 为 何不 将 一 大 批 图 元 信息 先 复制 
给 显卡 ， 然 后 让 显卡 批量 演 染 呢 ? 这 样 能 节省 很 多 轮 
Host 与 显卡 之 间 的 交互 ， 可 以 提升 性 能 ， 不 过 会 产生 
延迟 。 但 是 ， 只 要 能 够 满足 人 眼 的 视觉 暂 留 ， 也 就 是 
每 秒 至 少 约 30 帧 的 图 像 变化 刷新 率 ， 也 就 是 每 帧 只 要 
33 ms 内 泻 染 出 来 ， 就 可 以 了 (当然 发 烧 玩 家 会 追求 
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无 限 高 的 帧 率 ) 。 在 这 33 ms 内 ， 你 是 先 花 了 10 ms 来 。 调用 一 下 OpenGL 库 的 glSwapBuffer( ) 函 数 或 者 DirectX 
复制 待 泻 染 的 数据 ， 剩 下 23 ms 演 染 出 这 些 数 据 ; 还 3D 库 的 present( ) 函 数 来 切换 Frame Buffer， 最 终 将 泻 
是 每 0.5 ms 复制 一 点 数据 ， 再 用 0.5 ms 演 染 ,循环 一 染 好 的 这 一 帧 播放 到 屏幕 上 。 
直到 33 ms 演 染 完 所 有 数据 ;抑或 是 每 次 复制 一 点 点 如 图 8-194 所 示 为 整个 泻 染 流程 的 示意 图 。 该 流 
数据 ， 但 是 在 泻 染 时 ， 你 继续 复制 数据 ， 形成 流水 程 使 用 了 3D 图 形 加 速 卡 来 加 速 泻 染 过 程 ， 当 然 ， 如 果 
化 〈 见 本 书 第 4 章 ) 的 工作 模式 。 任 何 一 种 方式 都 可 ”不 使 用 图 形 加 速 卡 ， 也 可 以 用 纯 软件 靠 CPU 运 算 来 泻 
以 。 但 是 30 帧 率 对 于 有 些 人 来 讲 远 不 够 ，60 帧 才 够 。 染 ， 也 就 是 软 泻 染 器 ， 但 是 受 限于 CPU 的 性 能 ， 有 些 
492 $ 特效 就 无 法 被 支持 了 。 不 管 是 软 还 是 硬 泻 染 ， 其 流程 
都 是 类 似 的 ， 每 个 步骤 该 有 还 得 有 。 
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坊 条 件 的 模型 ， 可 以 用 一 个 8.27 典型 的 3D 泻 染 特效 简介 
Draw Call 统 一 批量 绘制 。 但 是 如 果 条 件 不 同 ， 模 型 就 
只 能 拆 成 多 个 Draw Call 分 别 绘制 。8.2.6 节 末尾 ， 正 在 介绍 完 基 本 的 图 形 演 染 流程 后 ， 冬 瓜 哥 再 给 大 
方 体 、 镜 面 、 倒 影 这 三 个 模型 各 自 要 求 不 同 的 条 件 状 家 介绍 一 些 高 级 视觉 特效 的 原理 。 如 图 8-195 所 示 ， 


态 ， 所 以 只 能 分 开 绘制 。 可 以 想象 ，Draw Call 越 多 ， 增加 了 特效 之 后 的 游戏 会 有 天 壤 之 别 的 感觉 。 

开销 越 大 ， 因 为 每 次 Draw Call 之 前 都 要 传递 一 堆 的 参 自从 20 世 纪 90 年 代 起 ， 计 算 机 图 形 学 发 展 到 现 
数 条 件 以 及 待 泻 染 的 数据 指针 给 演 染 模块 ， 这 些 都 要 在， 人 们 已 经 发 明了 不 计 其 数 的 视觉 特效 ， 其 中 有 记 
耗费 时 间 。 载 总 结 的 截至 2002 年 ) 如 图 8-196 所 示 。 


每 个 Draw Call 执 行 完 后 ， 显 卡 会 发 出 中 断 ， 绘 图 下 面 冬 瓜 哥 就 为 大 家 介绍 一 些 主流 的 视觉 特效 
程序 判断 如 果 该 Draw Call 为 жй 的 最 后 一 个 ， 则 需要 原理 。 
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图 8-195” 低 特效 和 高 特效 游戏 的 视觉 对 比 
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1993 Perspective correction 1995 Photon mappingl45] 
1993 Transform, qipping. and lighting 1996 Multisample anti-aliasing 
1997 Metropolis light transport 


1968 Ray casting 1974 Texture mapping! 1980 Ray tracing 1985 Hemicube radiosity 
1970 Scanline rendering 1974 Z buffering[ 1981 Parallax scrolling 1986 Light source tracing 
1971 Gouraud shading 1976 Environment mapping 1981 Sprite zooming 1986 Rendering equation 1993 Directi 


1973 Phong shading 1977 Blinn shading 1981 Cook shader 1987 Reyes rendering 1993 Trilir inear interpolation 1997 Instant Radiosityt48] 
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1973 Diffuse reflection 1977 Shadow volumes 1984 Octree ray tracing 1988 Distance їо; 1993 Огеп-! Nayar reflectance 2000 Pose space delornstio: 

1973 Specular highlight 1978 Shadow mapping — 1984 Alpha compositing 1988 Tiled rendering 1993 Tone mappi 2002 Precomputed Radiance Transfer 
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1974 Scrolling 1980 BSP trees 1985 Row/column scrolling 1993 Texture filtering 1995 idden surface determination 


图 8-196 ”视觉 特效 一 览 


8.2.7.1 法 线 贴图 ( Normal Мар) 


在 8.2.5 节 中 我 们 介绍 了 顶点 具有 的 法 向 量 属性 ， 
根据 顶点 法 向 量 可 以 算出 面 元 上 每 一 个 像素 点 的 法 向 
量 。 当 时 也 介绍 过 法 线 贴图 的 概念 。 其 基本 原理 是 把 
真实 凹凸 表面 对 应 的 复杂 法 线 ， 强 加 到 一 个 平坦 表 
面 上 ， 强 制 在 平坦 表面 上 生成 与 凹凸 表面 接近 的 明暗 
效果 ， 这 是 不 折 不 扣 的 障 眼 法 ， 可 以 节省 模型 表面 项 
点 的 数量 ， 提 升 性 能 ， 同 时 不 损失 太 多 表面 光照 明暗 
效果 。 

如 图 8-197 所 示 ， 左 侧 是 平坦 表面 的 法 线 ， 最 终 
效果 就 像 镜 面 拼接 起 来 一 样 难看 ， 中 间 是 更 精细 的 凹 
凸 表 面 的 法 线 ， 会 产生 更 加 真实 的 效果 。 最 右 侧 所 示 
为 将 中 间 真 实 的 法 线 强 加 到 平坦 表面 ， 可 以 实现 接近 
的 明暗 效果 。 那 么 ， 所 谓 “ 强 加 ”到 底 在 物理 上 对 应 
着 什么 操作 呢 ? 其实， 无 非 就 是 程序 在 计算 光照 时 按 
照 对 应 的 法 线 计算 ， 而 根本 不 管 实 际 表面 是 否 是 平坦 
的 。 这 相当 于 ， 一 个 光 单 上面 有 一 些 按照 法 线 向 量 和 
光源 位 置 计算 好 的 孔洞 ， 程 序 计算 出 哪些 透 光 哪 些 不 
透 光 ， 透 光 的 程度 也 各 不 相同 ， 然 后 直接 单 在 一 个 平 
坦 的 表面 ， 也 就 投下 了 明暗 分 离 的 效果 ， 你 把 光 单 音 
在 任何 模型 上 ， 模 型 表面 都 会 出 现 相同 样式 的 明暗 


班 ， 让 人 误 认为 这 是 表面 本 身 就 是 凹凸 不 平 的 。 所 
以 ， 需 要 按照 将 要 被 贴 到 模型 表面 纹理 中 的 纹路 ， 精 
心 构造 每 个 点 的 法 线 。 比 如 8-198 所 示 的 纹理 中 ， 需 
要 在 石头 缝隙 处 放置 倾斜 角度 较 大 的 法 线 ， 在 石头 表 
面 起 伏 较 大 的 地 方 也 需要 安置 一 定 倾斜 角 的 法 线 ， 最 
终 才能 实现 如 图 右 侧 所 示 的 效果 。 实 际 中 可 以 先 制作 
一 张 高 精细 度 表 面 的 模型 〈 高 模 ) ， 然 后 利用 程序 抓 
取 其 每 个 点 的 法 向 量 ， 将 法 向 量 保存 到 一 个 被 称 为 法 
线 纹理 的 数据 结构 中 ， 然 后 再 降低 模型 表面 的 顶点 数 
量 〈 低 模 ) 用 于 实际 泻 染 。 

毫 无 疑问 ， 需 要 将 这 些 做 好 的 假 法 线 保存 在 某 
个 数据 结构 中 ， 每 个 像素 保存 各 自 的 法 线 。 法 线 怎 么 
表示 ? 法 线 是 个 向 量 ， 它 没有 长 度 ， 只 有 和 角度。 利用 
НИ ПА 0 
sin 9 = 三 角形 底 边 长 度 /三 角形 斜 边 长 度 。 所 以 ， 
要 根据 空间 中 某 个 点 的 法 向 量 角度 ， 就 可 以 计算 出 该 
点 在 x、y、z 轴 方向 上 的 三 个 标量 长 度 的 比例 应 该 是 
多 少 ， 我 们 强制 将 这 三 个 沿 x/y/z 轴 的 向 量 的 最 大 绝对 
值 限定 为 1， 也 就 是 法 向 量 值 被 限定 在 -1 和 1 之 间 。 后 
续 ， 只 要 根据 这 三 个 标量 的 长 度 ， 利 用 初中 物理 力 的 
合成 原理 ， 即 可 计算 出 这 三 个 标量 的 合力 的 角度 。 如 
图 8-199 所 示 为 针对 某 个 点 所 保存 的 法 向 量 (-0.5， 


图 8-197 ”把 法 线 强加 到 平面 上 
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利用 法 线 纹理 映射 实现 的 效果 
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1.0, -1.0) 的 最 终 角度 求 出 过 程 示意 图 。 


法 向 量 : (-0.5, 1.0, -1.0) 


图 8-199 ”法 向 量 表示 方式 

可 以 看 到 ， 每 个 像素 点 需要 记录 x/y/z 方 向 上 的 各 
自 三 个 长 度 值 ， 而 每 个 像素 点 的 颜色 值 也 是 RGB 三 段 
式 存储 的 ， 如 果 将 法 向 量 的 值 认 为 是 该 像素 点 的 颜色 
的 话 ， 那 么 该 模型 上 的 所 有 像素 点 将 组 成 一 张 由 其 法 
向 量 充当 颜色 值 的 bitmap。 但 是 ， 由 于 法 向 量 中 有 负 
值 存在 ， 而 颜色 都 是 正 值 ， 所 以 ， 人 们 采用 这 个 公式 
来 将 法 向 量 值 转换 为 RGB 颜色 值 : 颜色 值 = (法 向 量 
值 +1) / 2。 这 样 ， 最 终生 成 的 RGB 中 每 个 分 量 的 绝 
对 值 都 不 会 大 于 1.0， 而 是 位 于 0 和 1 之 间 。 所 以 ， 模 型 
每 个 点 的 法 向 量 值 ， 最 终 被 保存 在 这 张 bitmap 中 ， 这 
张 用 于 保存 模型 中 每 个 点 法 向 量 值 的 bitmap， 被 称 为 
法 线 纹理 。 为 模型 表面 附 以 法 线 纹理 的 过 程 被 称 为 法 
线 纹理 映射 或 者 法 线 贴图 。 

注意 ， 给 一 个 模型 贴图 ， 只 有 法 线 纹理 并 不 够 ， 
还 需要 有 颜色 纹理 ， 也 就 是 一 幅 图 案 ， 除 非 你 的 模型 
原本 就 像 弄 成 一 幅 石 膏 像 。 法 线 纹理 仅仅 用 于 计算 模 
型 表面 的 明暗 光照 ， 也 就 是 说 ， 程 序 读 出 法 线 纹理 中 
的 RGB 值 ， 将 其 转换 为 x/y/z 值 去 计算 法 向 量 ， 然 后 算 
出 对 应 点 的 亮度 ， 而 不 是 拿 着 该 RGB 值 直接 去 赋予 对 
应 像素 以 颜色 ， 后 者 是 颜色 纹理 要 做 的 事情 。 

既然 法 线 纹理 本 质 上 也 是 一 副 bitmap， 它 长 什么 
样 呢 ? 如 图 8-200 左 侧 所 示 ， 它 就 是 这 副 模样 ， 你 竟 
然 可 以 分 辨 出 它 大 概 是 个 什么 模型 。 至 于 右边 的 图 
冬瓜 哥 马 上 解释 。 


图 8-200 ”法 线 纹理 


思考 一 下 ， 一 个 模型 在 一 个 3D 场 景 中 可 能 被 摆 
放 到 各 种 角度 上 ， 法 线 纹理 中 的 x/y/z 值 在 当初 被 记录 
保存 下 来 的 时 候 ， 其 模型 所 处 角度 与 当前 角度 是 不 同 
的 ， 那 么 这 些 值 就 不 能 被 直接 使 用 ， 否 则 就 是 刻 舟 求 
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剑 了 ， 光 照 的 角度 就 会 发 生 错 误 ， 产 生 不 可 预知 甚至 
搞笑 的 结果 。 

既然 如 此 ， 那 就 要 对 法 线 纹理 中 的 值 跟随 着 当前 
世界 坐标 到 视窗 坐标 这 整套 的 坐标 变换 步骤 一 起 做 变 
换 ， 之 后 纹理 才 可 以 最 终 被 使 用 。 那 么 问题 就 来 了 ， 
谁 知 道 某 个 模型 法 线 纹理 中 的 法 向 量 值 当时 是 以 哪个 
角度 记录 下 来 的 呢 ? 这 简单 ， 可 以 将 当时 生成 法 线 纹 
理 时 的 模型 摆 放 角度 记 下 到 纹理 中 一 同 保存 。 但 是 ， 
如 果 想 要 把 这 个 纹理 贴 到 不 同 模型 表面 ， 或 者 同一 
个 模型 不 同 角度 的 表面 ， 那 就 做 不 到 了 。 因 为 不 同 模 
型 表面 的 形状 、 角 度 大 不 相同 ， 按 照 同 一 个 角度 记录 
下 来 的 点 法 线 ， 只 能 适 配 当 初 对 应 角度 的 面 元 ， 并 且 
随 着 该 面 元 被 放 入 世界 坐标 系 的 同时 ， 与 坐标 变换 矩 
阵 一 同 变换 ， 但 是 变换 之 后 的 法 线 也 依然 只 适用 于 该 
面 元 。 要 解决 这 个 问题 ， 就 要 给 每 个 模型 各 自 准 备 一 
张 纹 理 ， 哪 怕 这 些 纹理 的 样式 都 是 一 样 的 。 举 个 最 简 
单 的 例子 ， 给 一 个 正方 体 的 6 个 面 贴 上 相同 的 法 线 纹 
理 ， 由 于 6 个 面 的 朝向 都 不 同 ， 就 需要 准备 6 张 按照 各 
自 角度 生成 的 法 线 纹理 ， 这 太 浪费 资源 。 

显然 ， 我 们 需要 找到 一 种 方法 ， 让 法 线 纹理 与 模 
型 表面 所 处 的 角度 无 关 ， 也 就 是 说 ， 让 刻 舟 求 剑 成 为 
可 能 。 思 考 一 下 ， 不 同 模型 不 同 角度 的 面 元 ， 其 面 法 
向 量 各 不 相同 ， 那 么 ， 如 果 能 够 记录 该 面 元 内 任何 一 
点 法 向 量 相对 于 该 面 法 向 量 之 间 的 相对 关系 的 话 ， 比 
如 “偏离 了 所 在 面 法 向 量 的 夹 角 ”， 那 么 ， 不 管 这 份 
法 线 纹理 被 贴 到 处 于 什么 角度 法 向 量 ) 的 面 元 ， 只 
要 在 当前 法 向 量 上 调节 对 应 夹 角 就 可 以 求 得 该 点 在 当 
前 世界 坐标 中 的 法 向 量 了 ， 这 样 就 做 到 了 刻 舟 求 剑 。 
当然 ， 我 们 不 能 记录 夹 角 ， 需 要 将 夹 角 转 换 为 长 度 
信息 。 

既然 要 记录 与 所 在 面 法 向 量 的 相对 信息 ， 那 就 需 
要 把 描述 点 法 向 量 所 需要 的 x/y/z 三 个 向 量 中 的 z 轴 与 
所 在 面 的 法 向 量 强 制 贴 合 ， 让 点 法 向 量 的 z 轴 与 面 法 
向 量 的 夹 角 为 0， 然 后 记录 x/y/z 三 个 值 ， 这 样 记录 下 
来 的 值 就 可 以 放 之 四 海 皆 准 了 ， 如 图 8-201 所 示 。 每 
个 点 都 以 所 在 面 的 法 向 量 为 z 轴 形成 一 个 局 部 私有 的 
虚拟 坐标 系 ， 点 法 向 量 记 录 的 是 这 个 私有 坐标 系 中 的 
值 。 这 个 私有 坐标 系 被 称 为 该 点 的 切线 空间 坐标 系 。 

如 图 8-201 右 侧 所 示 ， 针 对 某 个 点 的 法 向 量 ， 似 
乎 有 多 种 x/y/z 组 合 都 可 以 合成 ， 可 以 看 到 图 中 右 侧 的 
4 个 组 合 中 红色 的 法 向 量 方向 不 变 ， 但 是 不 同 x 和 y 轴 
方向 组 合 下 ，x/y 轴 上 的 值 却 可 以 各 不 相同 。 换 句 话 
说 ， 如 果 不 知道 x 和 y 轴 的 方向 ， 仅 通过 记录 下 来 的 x 
和 y 轴 坐标 值 来 求法 向 量 ， 这 是 无 固定 解 的 ， 会 有 多 
个 可 能 值 。 所 以 ， 必 须 将 x 和 y 轴 的 方向 也 固定 住 ， 那 
就 得 有 个 参照 物 。 

试想 ， 每 个 三 角形 的 顶点 都 有 各 自 的 纹理 坐标 ， 
U 和 V 就 是 良好 的 参照 物 。 取 该 点 所 在 三 角形 的 三 个 
顶点 P1、P2、P3 (还 记得 项 点 是 有 排列 顺序 的 么 ? 见 
前 文 ) 的 纹理 坐标 ， 然 后 令 P3 指 向 P1 的 方向 为 x 轴 ， 
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又 称 T (Tangent) 轴 ， 令 P3 指 向 P2 的 方向 为 y 轴 ， 又 
称 B (Binormal， 副 法 线 ) 轴 。 所 以 ，T 和 B 两 个 轴 可 
能 并 不 是 相互 垂直 的 ， 但 是 它们 都 与 面 法 向 量 垂直 ， 
面 法 向 量 对 应 的 轴 被 称 为 N 轴 (Normal， 法 线 ) ， 所 
以 整体 组 成 了 一 个 TBN 坐 标 系 ， 也 就 是 切线 空间 坐标 
系 。 点 法 向 量 的 x 和 y 的 值 就 按照 T 和 B 轴 的 方向 来 计 
算 确定 并 记录 ， 纵 使 x 和 y 轴 不 垂直 ， 但 这 并 不 影响 利 
用 TBN 三 个 值 来 合成 出 任意 方向 的 法 向 量 。 现 在 回顾 
图 8-194 中 Host 端 交 给 渲染 模块 数据 中 的 一 项 被 标记 为 
“tangent”， 其 意思 就 是 将 顶点 的 切线 纹理 法 向 量 传 
递 给 泻 染 模块 。 

经 过 这 样 记录 下 来 的 法 向 量 ， 不 管 被 贴 到 哪个 表 
面 ， 都 统一 按照 当前 表面 的 法 向 量 和 纹理 坐标 ， 计 算 
出 该 点 法 向 量 在 世界 坐标 空间 中 的 值 ， 然 后 计算 光照 
就 可 以 了 。 

现在 你 就 理解 图 8-200 中 右 侧 所 示 的 法 线 纹理 为 
什么 有 大 片 蓝 色 了 。 由 于 点 的 法 向 量 基本 不 会 偏 移 其 
所 在 面 法 向 量 太 多 ， 也 就 是 点 的 四 凸 程度 一 般 不 会 太 
和 夸张， 所 以 最 终 的 法 向 量 值 中 ，z 值 总 是 比 x 和 y 值 大 
一 些 ， 用 (法 向 量 值 +1) / 2 算式 转换 为 RGB 后 ， 整 
个 纹理 图 案 就 成 了 蓝 色 为 主 的 色调 了 。 如 果 某 个 点 没 
有 凹凸 ， 那 么 它 的 法 向 量 与 其 所 在 面 的 法 向 量 是 一 致 
的 ， 此 时 其 在 法 线 纹理 中 的 〈0.0，0.0，1.0) 转换 为 
RGB 之 后 就 是 (0.5，0.5，1.0) ， 这 个 色调 就 是 法 线 
纹理 中 基础 的 淡 蓝 色调 。 对 于 一 般 法 线 纹理 来 说 ， 其 
中 有 较 多 部 分 点 的 法 向 量 与 面 法 向 量 是 一 致 的 ， 没 有 
凹凸 ， 所 以 法 线 纹理 一 般 呈 现 为 淡 蓝 色调 为 主 ， 其 他 
色调 作为 点 级 ， 尤 其 是 那些 止 凸 边缘 会 有 一 些 绿 、 
红 、 白 色调 ， 这 也 是 为 何 能 够 从 法 线 纹理 中 辨识 出 其 
对 应 模型 样式 的 原因 。 

那么 ， 同 一 份 法 线 纹理 贴 到 不 同 模型 表面 ， 难 道 


不 需要 精 调 么 ? 比如 原本 模型 为 砖 墙 ， 另 一 个 模型 为 
石 块 墙 ， 砖 头 缝 和 石头 颖 显然 不 同 ， 其 四 凸 的 位 置 也 
不 同 。 是 的 ， 这 种 情况 必须 各 自生 成 一 份 法 线 纹理 。 
但 是 如 果 是 类 似 水 泥 、 石 头 、 沙 子 、 木 纹 、 水 面 等 ， 
没有 固定 位 置 的 裂缝 ， 位 置 完全 随机 ， 那 么 这 些 法 线 
纹理 就 可 以 贴 到 这 些 模型 表面 从 而 体现 出 类 似 的 效 
果 。 如 图 8-202 左 侧 所 示 的 蛇 皮 效果 法 线 纹理 ， 以 及 
右 侧 所 示 的 水 面 法 线 纹理 ， 它 们 并 不 像 砖 墙 一 样 有 固 
定 裂 颖 或 者 纹路 ， 而 只 有 完全 随机 的 纹路 。 

试想 一 下 ， 游 戏 中 那些 波光 妾 妾 的 水 面 是 如 何 
生成 的 ? 其 中 一 个 方法 就 是 利用 法 线 纹理 来 模拟 水 面 
的 止 凸 不 平 。 我 们 说 过 法 线 纹理 的 一 个 价值 就 在 于 ， 
其 可 以 动态 响应 光照 ， 跟 随 光 源 位 置 动 态 生成 明暗 区 
域 。 如 果 直 接 拍 一 张 现实 中 的 照片 作为 颜色 纹理 贴 上 
去 ， 这 样 一 样 可 以 有 明暗 的 光影 效果 ， 但 是 此 时 其 不 
能 响应 光源 的 变化 ， 其 暗 处 总 是 固定 不 变 的， 整个 画 
面 看 上 去 就 非常 假 。 

如 果 光 源 不 动 ， 如 何 实现 水 面 上 波光 兰 数 的 动 
态 效果 ? 那 就 必须 让 水 面 法 线 纹理 动 起 来 。 如 何 实 
现 ? 按照 时 间 对 法 线 纹理 中 对 应 位 置 的 值 进行 变化 即 
可 。 比 如 水 面 波动 频率 被 设置 为 一 秒 两 次 ， 那 就 设置 
定时 器 ， 每 0.5 秒 对 法 线 纹理 中 的 对 应 位 置 的 法 线 值 
做 扰动 。 具 体 方式 可 以 随机 噪声 调制 ， 或 者 使 用 傅 里 
叶 变换 等 方式 ， 这 里 不 多 介绍 了 。 这 种 动态 改变 法 线 
的 过 程 被 称 为 扰动 (Disturbing) ， 其 本 质 就 是 调制 
(Modulation) 。 

颜色 纹理 用 于 赋予 模型 图 案 ， 而 法 线 纹理 赋予 
模型 表面 凹凸 的 光照 感 观 ， 而 不 管 该 模型 表面 的 平坦 
程度 如 何 ， 即 使 使 用 精度 很 低 的 模型 也 可 以 得 到 与 高 
模 接近 的 效果 。 然 而 ， 当 你 绕 到 模型 侧面 去 观察 的 时 
候 ， 会 发 现 一 个 几乎 平整 的 表面 (如 图 8-203 右 侧 的 
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图 8-201 ”切线 空间 坐标 系 
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图 8-202 ” 蛇 皮 和 水 面 法 线 纹理 
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墙壁 尽头 所 示 ) ， 此 时 画面 就 很 假 了 ， 而 且 ， 当 角度 。 式 对 法 线 进行 扰动 ， 而 不 是 用 精确 调 校 的 法 线 纹理 。 
几乎 平行 时 ， 四 凸 表 面 凸 出 来 的 地 方 应 该 挡住 视线 更 ”这 种 方式 被 称 为 Bump Mapping (MAWE 。 其 效果 
远 处 的 像素 ， 但 是 由 于 模型 表面 的 真实 止 凸 程度 不 自然 与 法 线 贴图 没 法 比 ， 但 是 其 常用 在 一 些 大 片 单一 
够 ， 导 致 原本 需要 被 挡住 的 却 依然 可 以 看 到 ， 画 面 也 ”的 图 案 贴图 场景 中 ， 比 如 水 泥 墙 ， 由 于 这 些 模型 表面 
很 假 。 但 是 当 你 正 对 着 它 时 ， 画 面 上 的 模型 就 和 真 的 。 上 没有 什么 复杂 纹路 ， 各 方向 上 都 是 单一 纹理 ， 使 用 


mat, по ва 的 动态 变化 ， 其 上 阴暗 部 分 Вишр Mapping 就 非常 划算 。 

的 角度 竟然 也 可 以 随 之 变化 。 这 就 是 这 种 障 眼 法 的 魅 上 文中 说 到 ， 法 线 贴 图 在 观察 角度 接近 平行 于 物 

力 所 在 。 法 线 贴图 是 目前 应 用 最 广泛 的 贴图 技术 。 图 。” 体 表 面 时 ， 会 穿帮 ， 让 观察 者 看 出 整个 模型 其 实 只 是 

8-204 和 8-205 给 出 了 法 线 贴 图 的 其 他 应 用 效果 。 一 个 平坦 的 表面 。 另 外 ， 视 角 近 处 凸 出 来 的 物体 却 无 
在 法 线 纹理 被 发 明 出 来 之 前 ， 人 们 采用 随机 的 方 法 挡住 视角 远 处 低 矮 的 物体 ， 这 样 看 上 去 太 假 。 那 为 
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图 8-203 


眼 法 用 于 低 模 表 面 以 及 识破 障 眼 法 的 角度 
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图 8-205 
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何不 干脆 把 模型 表面 顶点 真 的 做 凸 起 和 凹陷 呢 ? 
8.2.7.2 曲面 细 分 与 置换 贴图 ( Tessellation ) 


为 了 避免 穿帮 ， 让 玩家 即便 以 很 刁钻 的 角度 观 
察 模型 也 能 看 出 上 四 凸 效 果 。 一 个 做 法 就 是 直接 改变 模 
型 表面 ， 把 该 凸 出 的 地 方 揪 出 来 ， 也 就 是 直接 改变 模 
型 顶点 坐标 ， 将 法 向 量 方向 的 坐标 值 数 值 加 大 。 如 图 
8-206 所 示 ， 将 球面 上 对 应 顶点 沿 着 法 向 方向 向 外 拉 
伸 一 段 距 离 ， 这 样 就 形成 了 更 加 四 凸 的 表面 。 如 图 中 
右 侧 ， 可 以 将 原本 平缓 的 水 面 也 进行 这 种 操作 ， 从 而 
形成 比 法 线 贴图 感 观 更 加 真实 的 上 四 凸 表面 。 游 戏 《 孤 
岛 危机 3》 中 水 坝 关 卡 中 有 一 棵 树 的 表面 就 使 用 了 该 
技术 来 形成 树 皮 表 面 的 上 四 凸 感 。 不 过 ， 开 启 这 个 技术 
之 后 帧 数 的 确 降 低 不 少 。 

那么 ， 是 不 是 可 以 直接 在 初期 建 模 的 时 候 就 直接 
把 模型 形状 定义 成 这 样 呢 ? 这 固然 可 以 ， 但 是 很 不 灵 
活 。 比 如 ， 水 面 是 在 不 断 波动 中 的 ， 有 些 水 面 可 以 与 
物体 互动 ， 比 如 委 一 个 物体 到 水 里 ， 会 产生 水 波 ， 波 
纹 的 力度 、 方 向 等 与 投掷 物体 的 入 水 角度 相关 ， 这 是 
需要 实时 计算 的 ，3D 建 模 时 是 无 法 预知 到 这 一 点 的 。 
另外 ， 如 果 场 景 中 某 个 模型 远离 观察 者 ， 导 致 其 尺寸 
变 得 非常 小 ， 那 么 就 没有 必要 用 精细 的 模型 来 泻 染 ， 
如 果 一 开始 就 建立 精细 模型 ， 那 么 即使 该 模型 被 放置 
的 很 远 ， 也 必须 泻 染 该 模型 所 有 的 顶点 。 

所 以 ， 必 须 用 某 种 方法 来 根据 当前 的 演 染 条 件 
来 动态 改变 物体 表面 的 项 点， 这 就 是 所 谓 实时 计算 / 
泻 染 的 含义 。 当 然 也 可 以 静态 的 改变 模型 项 点 坐标 ， 
比如 ， 可 以 将 模型 表面 各 个 点 要 被 移动 的 距离 记录 
下 来 ， 比 如 以 0 一 255 为 范围 ， 记 录 每 个 点 需要 沿 法 
向 移动 多 少 距 离 ， 也 就 是 高 度 值 。 那 么 ， 这 个 信息 
存放 在 哪里 比较 合适 ? 法 线 纹理 中 保存 了 每 个 点 的 
法 向 量 转换 成 RGB 之 后 的 值 形成 的 一 张 bitmap 文 件 ， 
由 于 bitmap 中 还 会 为 每 个 点 保存 Alpha 透 明度 值 ， 所 
以 人 们 干脆 将 每 个 点 的 高 度 值 存储 在 法 线 纹理 bitmap 


Ç ss i 


中 的 Alpha 通 道中 〈 法 线 纹理 的 RGB 通道 保存 点 法 向 
量 ， 而 贴图 图 案 颜 色 值 则 保存 到 单独 的 一 张 颜色 纹理 
bitmap 中 ) 。 如 果 将 Alpha 通 道 的 值 提取 出 来 ， 用 灰 度 
来 表示 ， 则 形成 一 张 灰 度 图 ， 这 个 图 又 被 称 为 高 度 图 
(Height Map) ， 越 白 的 地 方 越 高 。 只 要 改变 高 度 图 
中 的 值 ， 就 可 以 让 玩家 自 定 义 模型 的 上 四 凸 程度 ， 达 到 
动态 可 配置 的 效果 。 

如 图 8-207 所 示 ， 使 用 中 间 的 高 度 图 中 的 值 作 
用 于 模型 顶点 ， 改 变 项 点 的 位 置 ， 就 可 以 将 原本 位 
于 一 个 平面 的 模型 变 为 凹凸 有 致 的 模型 。 这 种 利用 
高 度 图 来 调制 模型 表面 项 点 位 置 的 贴图 方式 被 称 为 
Displacement Mapping (EHS) ， 对 应 的 高 度 图 
又 被 称 为 置换 纹理 。“ 和 置换” 的 意思 就 是 用 新 的 顶点 
坐标 替换 了 原 有 的 顶点 坐标 。 置 换 纹理 一 般 与 法 线 纹 
理 存在 于 同一 张 bitmap 中 ， 其 中 RGB 通道 存放 法 线 信 
息 ，Alpha 通 道 存放 高 度 信息 。 


法 线 纹理 、 置 换 纹理 被 统称 为 控制 纹理 。 也 就 
是 说 其 中 存储 的 RGB 颜色 值 并 非 作 为 颜色 贴 到 模型 
表面 像素 ,而 是 作为 一 种 控制 信息 ( 法 线 、 高 度 ) 
来 解码 ， 然 后 应 用 到 光照 以 及 其 他 计算 过 程 中 去 。 
既然 保存 的 是 一 些 控制 信息 ， 那 么 是 否 有 可 能 不 将 
每 个 点 的 控制 信息 保存 到 bitmap 中 ， 而 是 直接 写 到 
某 个 代码 中 ? 尤其 是 对 于 一 些 有 明确 重复 结构 的 纹 
理 ， 比 如 正弦 、 贝 塞 尔 曲 线 、 随 机 噪声 类 等 ， 完 全 
可 以 用 一 个 公式 函数 ， 根 据 当前 点 坐标 直接 算出 该 
点 的 法 线 以 及 高 度 。 这 种 控制 纹理 被 称 为 过 程 纹理 
(Procedure Texture ) ， 其 物理 上 对 应 着 一 个 或 者 几 
个 国定 算法 。 贴 图 时 ， 调 用 这 些 算法 即 可 获得 对 应 
像素 的 控制 信息 ， 无 须 事先 保存 所 有 像素 的 信息 。 
这 样 可 以 节省 用 于 存储 纹理 bitmap 的 存储 器 空间 。 
如 图 8-208 所 示 为 利用 过 程 纹理 生成 的 图 案 。 更 深 
一 步 思 考 ， 纹 理 中 存储 的 原本 就 是 控制 信息 ， 即 便 


图 8-206 ”改变 顶点 位 置 以 实现 模型 表面 的 凹凸 
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Displacement 
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图 8-207 用 高 度 图 来 调制 模型 的 顶点 坐标 位 置 


是 颜色 纹理 ， 也 可 以 认为 存储 的 是 RGB 颜色 控制 信 
息 ， 只 不 过 RGB 信息 可 以 直接 被 人 脑 更 直观 辨识 罢 
了 。 如 果 将 纹理 中 的 信息 认为 是 声音 编码 呢 ， 也 就 
是 直接 用 播放 器 来 播放 一 幅 bitmap? 理论 上 这 样 也 
是 可 以 的 ， 只 要 把 bitmap 的 头 部 信息 更 换 为 mp3 头 
部 ， 播 放 器 就 可 以 播放 ， 只 不 过 播 出 来 是 什么 东西 
就 得 自己 体会 了 。 同 理 ， 用 看 图 软件 打开 一 首 mp3 
音乐 也 是 可 以 的 ， 把 mp3 头 部 改 为 bitmap 头 部 ， 只 
不 过 显示 出 来 什么 颜色 ， 也 得 自己 体会 。 网 络 上 有 
ПИЛЕ, ВРЕМЕ ЖЕ, А 
和 镁 和 变奏 ， 也 可 以 谱 成 一 首 美妙 的 音乐 。 请 读者 
自己 感受 。 我 们 前 文中 介绍 了 用 声音 来 画图 ， 现 
£ хт Жл [ратне 
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果 。 所 以 ， 我 们 需要 将 原本 的 一 个 大 面 元 ， 细 化 成 多 
个 小 面 元 ， 然 后 再 去 调整 小 面 元 的 顶点 的 法 向 高 度 。 
这 种 技术 被 称 为 曲面 细 分 (Тевзе!аноп, WR) , Ж 
含义 就 像 给 一 个 空白 表面 镶嵌 上 细节 一 样 。 

如 图 8-209 所 示 ， 具 体 的 镶嵌 过 程 是 先 根据 面 
元 的 顶点 、 顶 点 法 向 量 ， 以 及 程序 希望 实现 的 效果 
(如 图 8-210 所 示 )〉， 生 成 该 面 元 内 部 的 控制 点 ， 也 
就 是 那些 能 够 揪 一 下 就 显著 改变 表面 形状 的 关键 点 
(就 像 前 文中 介绍 过 的 贝 塞 尔 曲 线 中 的 控制 点 )， 
这 些 控制 点 被 称 为 Patch。 同 时 ， 还 需要 生成 灸 区 
参数 ， 也 就 是 具体 以 什么 样式 来 镶嵌 。 这 一 步 被 称 
为 Hull Shading (外 壳 定 型 ) 阶段 ， 对 应 的 程序 模 
块 则 被 称 为 Hull Shader。 然 后 基于 Hull Shader 传 来 
的 镶嵌 模式 参数 ， 生 成 其 他 项 点 的 U/V 纹 理 坐标 ， 


А пы 这 一 步 被 称 为 Tesselleting， 对 应 的 程序 模块 被 称 为 
同 的 ， 都 是 对 信 š 7 Tesselletor。 最 终 ， 针 对 Tesselletor 传 来 的 顶点 纹理 
息 编 码 和 解码 的 坐标 ， 生 成 每 个 顶点 的 法 向 量 以 及 位 于 当前 视窗 坐 
过 程 。 钢琴 独奏 Дж 标 系 中 的 坐标 ， 以 及 最 终 使 用 置换 贴图 的 高 度 图 将 
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818-208 “利用 过 程 纹 理 生成 的 图 案 


这 里 有 个 问题 ， 图 8-207 中 这 张 旗帜 的 模型 平面 
由 个 三 角形 组 成 ， 共 6 个 顶点 。 那 么 ， 纵 使 再 怎么 改 
顶点 的 位 置 ， 也 不 会 出 现 图 中 右 侧 所 示 的 曲面 效 
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对 应 顶点 的 位 置 坐标 值 进行 变更 ， 这 一 步 被 称 为 
Domain Shading〈 区 域 定 型 )， 对 应 的 程序 模块 则 被 
称 为 Domain Shader。 整 个 Tessellation 曲 面 细 分 /镶嵌 
过 程 在 Vertex Shading 之 后 进行 ， 也 就 是 已 经 将 场景 
转换 为 视窗 坐标 系 之 后 。 曲 面 细 分 与 置换 贴图 是 配 
套 使 用 的 ， 如 果 只 细 分 了 曲面 而 不 进行 顶点 位 置 调 
整 的 话 ， 就 不 会 产生 任何 效果 ， 因 为 所 有 灸 嵌 上 去 
的 微 表面 依然 与 之 前 的 表面 处 于 同一 个 平面 ， 没 有 
MARR. 

如 图 8-211 所 示 为 开启 曲面 细 分 机 制 前 后 的 效果 图 
对 比 。 左 侧 图 片 是 应 用 了 法 线 贴图 但 是 没有 使 用 曲面 
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面 元 算法 (Hull Shader ) Patch 
图 8-209 ”Tessellation 过 程 示意 图 
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细 分 ， 可 以 发 现 屋顶 上 瓦 片 的 凹凸 感 明显 增强 。 曲 面 
细 分 的 代价 是 需要 引入 较 大 的 额外 运算 量 。 


а 


实际 中 ， 应 用 曲面 细 分 + 置换 贴图 之 后 ， 一 般 还 
需要 应 月 法 线 贴图 。 这 三 者 其 实 并 不 矛盾 。 前 者 
致力 于 增加 和 改变 模型 的 顶点 ， 后 者 则 致力 于 改变 模 
型 表面 的 光照 细节 。 如 图 8-212 所 示 ， 左 侧 为 应 用 了 
曲面 细 分 和 置换 贴图 之 后 的 效果 ， 可 以 看 到 海面 上 的 
细节 并 不 够 丰富 ， 额 外 应 用 了 法 线 贴 图 之 后 ， 右 侧 所 
示 的 画面 有 更 多 的 细节 。 
如 图 8-213 所 示 为 
总 过 程 示 意图 。 图 中 Diffuse Texture 指 的 是 带 有 原生 漫 
反射 “Diffuse》 光 照 效 果 的 一 副 颜色 纹理 。 


视差 /位 和 


由 于 曲面 细 分 + 置换 贴图 需要 较 大 的 运算 量 ， 所 
以 人 们 又 发 明了 一 种 运算 量 相对 较 小 ， 但 是 效果 却 非 
常 震撼 的 贴图 方式 : 0 图 (Parallax Mapping) , 
或 者 又 被 称 为 位 移 贴图 (Offset Mapping) 。 也 有 人 
将 Displacement Mapping 置 换 贴图 称 为 位 移 贴 图 。 不 


面 细 分 + 置换 贴图 + 法 线 贴图 


8.2.7.3 


1E (Parallax Мар) 


Tessellated 


Triangle 
Mesh 


Patch Mesh 


法 线 贴图 


置换 + 法 线 贴 图 


过 冬瓜 哥 个 人 认为 视差 贴图 和 位 移 贴 图 可 以 指 同一 个 
技术 。 

先 来 看 看 效果 。 如 图 8-214 所 示 ， 左 侧 为 只 使 用 
法 线 贴图 时 ， 从 平行 角度 观察 纹理 表面 ， 丝 毫 感觉 不 
出 凹凸 感 ， 而 右 侧 是 使 用 了 视差 贴图 后 的 效果 ， 有 很 
强 的 上 四 凸 感 ， 让 人 感觉 这 根本 就 是 用 了 置换 贴图 将 模 
型 的 顶点 揪 起 来 了 。 其 实 ， 视 差 贴图 根本 没有 改变 模 
型 的 顶点 坐标 ， 这 一 点 从 地 平 线 处 依然 是 平坦 的 就 可 
以 判断 出 来 。 

视差 贴图 的 机 制 是， 首先 在 法 线 贴图 的 基础 上 ， 
像 置 换 贴 图 一 样 引入 高 度 图 ， 但 是 并 不 用 高 度 图 去 调 
制 顶点 坐标 ， 再 利用 高 度 信息 ， 求 出 观察 者 在 当前 视 
角 下 应 当 观 察 到 的 是 哪个 纹 素 ， 然 后 将 相应 纹 素 值 写 
到 对 应 的 屏幕 像素 中 ， 从 而 形成 对 应 位 置 上 纹 素 被 抬 
高 的 假象 ， 如 图 8-215 所 示 。 

先 假设 表面 平整 ， 没 有 高 度 信息 ， 那 么 当 观 察 者 
观察 全 点 的 时 候 ， 就 需要 对 其 呈现 从 点 纹理 坐标 对 应 
的 纹 素 ， 这 也 是 前 文中 所 有 贴图 方式 的 做 法 。 但 是 如 
果 要 让 观察 者 感觉 到 高 度 ， 当 观察 者 以 同样 的 视角 0 
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图 8-214 视差 贴图 效果 示意 图 
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位 移 ( Offset ) 
Бе 
已 知 8， 已 知 A 点 纹理 坐标 ， 已 知 点 @ 高 度 ， 求 “点 @ 纹 理 坐标 ， 无 法 直接 求 出 。 但 可 以 直接 用 自 点 高 度 除 以 tag 6 求 出 日 点 纹理 坐标 
图 8-215 ”视差 贴图 基本 原理 示意 图 


观察 物体 时 ， 其 应 当 观 察 到 的 是 物体 表面 的 个 点 ， 
该 点 对 应 的 纹 素 坐 标 在 全 点 。 显 然 ， 我 们 需要 求 出 人 @ 
点 的 位 置 ， 然 后 读 出 对 应 纹 素 写 入 到 屏幕 的 含 点 ， 因 
为 观察 者 最 终 还 是 看 到 屏幕 上 的 含 点 ， 全 是 虚拟 出 来 
的 ， 实 际 上 不 存在 ， 但 是 只 要 将 @ 的 纹 素 帖 到 全 点 ， 
观察 者 就 会 误 认为 @ 点 被 抬 高 了 。 这 就 是 视差 贴图 的 
奇妙 之 处 。 这 也 是 为 何 称 之 为 视差 /位 移 贴图 的 原因 。 

问题 是 ，@ 点 的 坐标 无 法 直接 迅速 求 出 。 给 定 
任意 一 点 篇， 其 与 观察 者 的 连 线 与 物体 表面 的 交点 位 
置 ， 看 似 是 固 定 的 ， 一 定 能 求 出 ， 但 是 ， 由 于 物体 表 
面 曲线 是 无 法 用 方程 来 描述 的 ， 其 完全 没有 规律 ， 被 
高 度 图 中 的 值 控制 着 。 高 度 图 是 美工 人 员 使 用 2D 图 像 
编辑 软件 ， 在 屏幕 上 用 鼠标 刷 出 来 的 ， 就 像 往 脸 上 抹 
粉 一 样 ， 你 不 可 能 把 某 次 抹 的 粉 的 分 布 状况 用 一 个 公 


不 是 太 不 规则 ， 都 可 以 直接 把 它 当 成 平坦 的 处 理 ， 找 
到 一 个 近似 交点 合 ， 也 就 是 直接 用 合 的 高 度 除 以 tag 0 
求 出 对 应 @ 点 的 纹理 坐标 ， 读 纹 素 贴 入 像素 即 可 。 当 
然 ， 由 于 只 是 近似 处 理 ， 所 以 最 终 效 果 无 法 真实 还 原 
高 度 图 中 规定 的 高 度 ， 其 高 度 不 是 高 了 就 是 矮 了 。 但 
是 即便 如 此 ， 整 体 看 上 去 仍然 会 有 被 抬 高 的 四 凸 感 ， 
只 是 仔细 观察 的 话 才 会 发 现 破绽 。 不 过 ， 对 于 一 般 玩 
家 来 讲 ， 这 已 经 足以 以 假 乱 真 了 。 然 而 冬瓜 哥 是 图 形 发 
烧 友 ， 是 追求 极致 的 ， 虽然 没 能 力 开发 游戏 ， 只 会 玩 。 


式 描 述 出 来 。 如 图 8-215 中 右 侧 所 示 ， 如 果 物 体 表面 
高 度 变化 了 ， 那 么 全 点 位 置 也 会 变化 ， 你 根本 不 知道 
全 点 在 哪里 。 找 到 光线 与 表面 的 交点 位 置 的 过 程 ， 被 
称 为 求 交 ， 对 不 规则 表面 求 交 的 过 程 非常 复杂 。 

多 数 时 候 ， 纵 使 表面 被 抬 高 了 ， 但 是 被 抬 高 的 
地 方 有 相当 比例 的 位 置 依然 是 平坦 的 。 那 么 这 些 位 置 
就 可 以 用 公式 来 描述 ， 那 就 是 直线 公式 ， 当 然 ， 我 们 
抛 开 星 涩 的 数学 表示 法 不 谈 ， 转 看 图 8-216 所 示 。 如 
果 被 抬 高 的 表面 平坦 ， 那 么 求 交 操作 的 结果 很 容易 
WHER. HOARE GRAO AMARRE P 
读 出 ) аро, ЕН БФ 7 B] BJOffsetf 
É, НО + Offset EROA NARR, 
然后 将 对 应 纹 素 读 出 贴 入 像素 即 可 。 

所 以 ， 对 于 图 8-215 中 所 示 的 不 规则 表面 ， 只 要 


位 移 ( Offset ) 
图 8-216 ”假设 表面 仍然 是 平坦 的 

如 图 8-217 所 示 为 使 用 了 视差 贴图 之 后 的 效果 。 
图 中 左 侧 所 示 为 纯 法 线 贴图 ， 视 角 远方 会 穿帮 ， 因 
为 无 法 感觉 到 高 度 差 。 图 中 间 所 示 为 使 用 了 抬 高 程度 
中 等 的 视差 贴图 ， 右 侧 所 示 为 抬 高 程度 较 大 的 视差 贴 
图 效果 。 仔 细 看 的 话 ， 图 也 会 穿帮 ， 很 不 自然 ， 近 处 
的 像素 并 没有 完全 遮挡 远 处 像素 ， 其 根本 原因 就 是 对 
纹理 采样 时 的 近似 程度 太 低 了 。 我 们 得 想 办 法 提升 
精度 。 

虽然 光线 与 假 表面 的 交点 无 法 直接 求 出 ， 但 是 
可 以 用 条 办 法 来 更 近似 求 出 。 如 图 8-218 所 示 ， 在 假 
表面 与 真 表面 之 间 将 整个 高 度 切 分 为 多 个 层级 ， 然 后 
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人 5 每 一 层 的 等 高 线 进行 求 
交 ， 由 于 等 高 线 为 直线 ， pa ep 
сюе ке оте 
出 这 些 纹 素 对 应 的 假 表面 高 度 上 OO@@ 人 @. 显而易见 
的 一 个 规律 是 ， 光 线 穿 越 表 面 交点 两 边 的 点 ， 也 就 是 


本 例 中 的 @ 和 @， 它 们 的 表面 高 度 值 和 层级 高 度 值 
是 相反 的 ， 也 就 是 说 ，@ 点 的 表面 高 度 值 大 于 其 对 应 


汐 层级 高 度 值 ， 而 点 的 表面 高 度 值 小 于 其 对 应 的 层 
级 高 度 值 。 交 点 一 定位 于 六 两 个 点 的 表面 区 
间 内 。 所 以 ， 具 体 计算 时 并 不 需要 将 所 有 等 高 线 对 应 
的 交点 全 求 出 ， 而 是 可 以 先 求 最 高 层级 的 点 ， 考 察 其 
对 应 的 表面 高 度 值 与 层级 高 度 值 的 关系 ， 如 果 表 面 高 
度 值 小 于 层级 高 度 值 ， 则 其 继续 与 下 一 个 层级 高 度 求 
交 并 做 相同 比较 ， 直 到 找到 发 生 反 转 〈 表 面 高 度 值 大 
于 层级 高 度 值 ) 的 那个 点 ， 也 就 可 以 确定 两 个 关键 点 
了 。 或 者 采用 二 分 法 ， 先 从 中 间 层 级 高 度 开始 求 交 计 


t——— 
Hi: H; 等 比例 插值 


算 ， 如 果 发 现 表 面 高 度 大 于 层级 高 度 ， 
的 层级 求 交 并 计算 、 比 较 。 

然后 ， 利 用 这 两 个 点 各 自 的 表面 高 度 与 层级 高 度 
之 间 的 差 值 ， 用 两 者 的 比例 去 插值 @@ 和 癸 两 点 间 的 距 
离 ， 最 终 得 到 人 @ 点 的 纹理 坐标 值 。@ 点 与 理想 值 并 不 
完全 重合 ， 只 是 更 加 接近 了 ， 如 图 8-218 右 侧 所 示 。 

这 种 利用 寻找 两 个 相 邻 且 发 生 高 度 比 例 反 转 的 
等 高 线 交点 ， ЖЕСЕ ЧЕКЕ Чи у 
假 表面 交点 的 视差 贴图 技术 ， 被 称 为 陡峭 
(Steep Parallax Mapping) 。 如 图 8-219 所 示 
差 贴图 效果 ， 可 以 看 到 其 四 凸 得 更 加 真实 ， 失 真 度 更 
小 ， 而 且 其 精度 已 经 高 到 足以 实现 近 处 像素 遮挡 远 处 
的 像素 的 真实 效果 了 。 看 上 去 很 难 想象 这 个 模型 的 表 
面 原 本 是 平坦 的 ， 不 过 ， 可 以 观察 其 平坦 的 边缘 ， 表 
明 其 一 定 是 障 眼 法 ， 而 没有 使 用 置换 贴图 。 

要 提升 陡峭 视差 贴图 的 近似 度 ， 就 需要 将 高 度 


则 从 再 高 一 层 


层级 切 分 得 更 细 ， 这 必然 也 需要 更 大 的 运算 量 。 有 一 
个 优化 是 ， 当 观察 者 视角 与 表面 夹 角 较 小 时 ， 也 就 
是 越发 正 对 着 表面 观察 时 ， 由 于 此 时 误差 较 小 ， 所 
以 可 以 动态 降低 高 度 层级 的 级 数 ， 以 节省 运算 量 。 
在 陡峭 视差 贴图 的 基础 上 ， 人 们 又 发 明了 精度 更 高 
的 视差 迹 项 贴图 (Parallax Occlusion Mapping) ， 以 
及 迄今 为 止 精度 最 高 的 浮雕 视差 贴图 (Relief Parallax 
Mapping) 。 其 中 Occlusion 的 意思 是 其 精度 高 到 可 以 
实现 遮挡 效果 ， 其 实 陡峭 视差 贴图 精度 在 视角 不 太 大 
时 已 经 可 以 实现 遮挡 。Relief (浮雕 ) 的 意思 是 说 这 
个 贴图 已 经 可 以 达到 以 假 乱 真 的 地 步 了 。 这 两 个 算法 
在 确定 两 个 反 转 点 之 前 的 算法 与 陡峭 视差 贴图 一 致 ， 
但 是 在 这 两 个 点 之 间 寻 找 最 终 交 点 的 过 程 中 ， 两 者 使 
用 了 更 精确 的 算法 ， 篇 幅 所 限 这 里 就 不 多 介绍 了 ， 大 
家 可 以 自行 了 解 。 

后 ， 如 图 8-220 所 示 ， 游 戏 《 孤 岛 危机 》 当 年 
直接 把 3D 游 戏 的 画面 抬升 了 一 大 截 ， 当 时 可 谓 是 震 
撼 无 比 。 其 中 就 使 用 了 视差 贴图 。 总 结 一 下 上 述 的 贴 
图 技术 出 现 的 年 代 : 四 凸 贴图 〈1978 年 ) 、 置 换 贴图 
(1984 年 ) 、 法 线 贴 图 (1996 年 ) 、 视 差 贴图 (2001 
年 ) 、 浮 雕 贴图 (2005 年 ) 。 


8.2.7.4 物体 投影 (Shadow ) 


我 们 前 文中 介绍 的 光照 效果 ， 都 是 致力 于 生 
型 的 表面 凹凸 细节 明暗 区 域 ， 虽 然 表 面 可 能 是 平 的 ， 
投 不 出 影子 ， 但 是 通过 法 线 贴图 处 理 依然 可 以 算出 哪 


这 是 投影 


(shadow ) 
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里 应 该 是 暗 的 。 利 用 强制 赋予 平坦 表面 以 不 同 的 法 
线 ， 只 要 惕 说 这 个 地 方 是 焉 的 ， 那 它 就 是 牌 的， 只 要 
ІШ ЕАН, Жит, ФНК. 
然 ， 曲 面 细 分 + 置换 贴图 是 真 把 模型 给 弄 和 看 了， 或 者 
说 更 细致 了 。 

然而 ， 现 实 中 的 场 


景 ， 物 体 都 会 在 光源 下 产生 
整体 的 投影 (Shadow) ， 如 图 8-221 左 侧 所 示 。 在 现 
实 世界 中 ， 其 实 只 存在 Shadow， 而 Shade 的 本 质 也 是 
Shadow， 只 不 过 是 物体 表面 上 微小 凸 起 在 表面 上 投 
出 的 Shadow。 但 是 如 果 为 每 个 小 凸 起 都 计算 精确 的 
阴影 ， 将 会 耗费 太 大 的 资源 ， 所 以 人 们 最 终 选 择 利 
法 向 量 与 光源 的 夹 角 ， 近 似 估算 一 个 顶点 , 
然后 再 近似 插值 生成 表面 上 周围 像素 点 的 亮度 来 模拟 
Shadow。 但 是 在 大 尺度 上 ， 这 种 模拟 就 不 真实 了 ， 必 
须 精确 计算 投影 。 当 然 ， 早 期 的 游戏 或 者 一 些 简化 游 
戏 中 的 阴影 的 确 是 模拟 的 ， 比 如 每 个 角色 脚底 下 踩 着 
一 个 黑色 圆 盘 来 充当 阴影 ， 如 图 8-221 最 右 侧 所 示 。 
如 果 能 够 计算 出 场景 中 哪些 像素 处 在 阴影 中 ， 
就 可 以 将 其 亮度 调 低 到 对 应 的 级 别 ， 从 而 实现 阴影 效 
果 。 有 多 种 方式 来 计算 阴影 。 试 想 一 下 ， 被 光源 光线 
照射 到 的 地 方 一 定 是 亮 的 ， 照 射 不 到 的 地 方 一 定 是 暗 
的 ， 只 要 能 判断 出 当前 场景 中 哪些 面 元 是 光线 达 不 到 
的 ， 或 者 说 哪些 面 元 前 面 有 遮挡 物 ， 那 么 这 些 区 域 就 
是 暗 的 。 换 句 话说， 如 果 把 一 个 观察 者 的 眼睛 放置 
мара ин 观察 者 能 够 看 到 的 面 元 都 应 该 是 亮 
， 看 不 到 的 《被 z 值 小 的 面 元 遮挡 住 的 ) 面 元 都 是 


图 8-221 Shadow 和 Shade 的 区 别 
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暗 的。 这 就 好 办 了 ， 还 记得 z-buffer 么 ? 演 染 的 时 候 ， 
如 果 开 启 了 z 遮 挡 测试 ， 程 序 会 将 每 个 像素 位 置 最 靠 
近视 角 的 像素 的 z 值 写 入 z-buffer，z-buffer 中 保存 的 其 
实 就 是 我 们 想 要 的 ， 也 就 是 观察 者 最 终 能 够 看 到 的 那 
些 像素 的 z 值 。 所 以 ， 可 以 先 假设 我 们 站 在 光源 的 位 
置 上 来 观察 这 个 场景 ， 演 染 出 该 场景 ， 但 是 我 们 只 为 
了 得 到 该 场景 下 的 z-buffer， 可 以 略 过 光照 、 纹 理 贴 
图 、 混 合 等 一 系列 无 关 的 处 理 步 又 ， 只 开启 z 测 试 和 
z-buffer 写 入 就 可 以 ， 所 以 这 对 算 力 要 求 并 不 算 高 。 经 
过 这 一 步 处 理 之 后 的 z-buffer 会 被 保存 起 来 ， 并 被 称 为 
Depth Map， 或 者 Shadow Map。Shadow Map 准 确 记录 
了 以 光源 为 观察 视角 时 屏幕 上 各 像素 位 置 上 最 前 方 纹 
素 的 z 轴 位 置 。 

如 图 8-222 所 示 的 场景 ，A 视 角 为 以 光源 为 观察 
者 的 视角 场景 ， 先 以 该 视角 泻 染 得 到 对 应 的 z-buffer/ 
Shadow Map。 此 时 ， 真 正 的 观察 者 位 于 A 场景 下 的 x 
轴 上 ， 望 向 y/z 轴 组 成 的 平面 。 然 后 切换 到 观察 者 视 
角 ， 也 就 是 B 场 景 ， 此 时 的 x 轴 就 是 A 场 景 下 的 z 轴 ， 
z 轴 则 是 A 场景 下 的 x 轴 。 那 么 ， 对 于 图 中 标识 为 蓝 色 
的 像素 ， 在 B 场 景 下 如 何 判 断 其 是 否 处 于 阴影 中 ? 
显然 ， 在 B 场 景 下 ， 蓝 色 像 素 在 x 轴 上 的 坐标 就 等 于 
A 场 景 下 该 点 在 z 轴 上 的 坐标 ， 将 该 坐标 值 与 Shadow 
Map 中 对 应 像素 位 置 记录 的 z 值 相 比 较 ， 如 果 其 大 于 
Shadow Map 中 记录 的 值 ， 证 明 该 点 在 光源 视角 下 时 
前 方 有 遮挡 物 ， 所 以 该 点 应 该 是 暗 的 。 如 果 其 小 于 
Shadow Map 中 记录 的 值 呢 ? 该 坐标 值 不 可 能 小 于 ， 最 
多 只 能 等 于 ， 自 己 思考 一 下 ， 此 时 该 点 就 是 亮 的 。 

所 以 ， 判 断 的 关键 一 步 是 ， 计 算出 真正 观察 者 
视角 场景 中 的 某 点 在 光源 视角 场景 下 的 z 轴 坐标 值 。 
要 计算 之 ， 只 要 知道 光源 和 真正 观察 者 的 位 置 就 可 以 
了 ， 使 用 变换 矩阵 ， 将 观察 者 视角 坐标 系 变换 为 光源 
坐标 系 ， 求 出 该 点 在 光源 坐标 系 下 的 z 轴 值 ， 将 其 与 
Shadow Map 中 保存 的 z 值 比较 即 可 。 在 图 8-222 中 我 们 
举 了 一 个 比较 容易 理解 的 例子 ， 其 变换 算式 就 是 光源 
视角 下 的 z= 观察 者 视角 下 的 x， 更 复杂 的 场景 下 ， 变 
换算 式 也 会 变 得 复杂 。 

如 果 将 Shadow Map 用 灰 度 解码 (z 值 越 小 越 
Ж) 显示 出 来 的 话 ， 其 就 是 如 图 8-223 左 二 所 示 的 图 
ят. 

可 以 看 得 出 来 ， 对 于 某 个 3D 场 景 ， 只 要 光源 位 置 
恒定 不 变 ， 不 管 观察 者 如 何 移动 ， 区 域 中 的 亮 暗部 分 
也 总 是 不 变 。 这 意味 着 ， 可 以 只 演 染 一 次 得 到 Shadow 
Map， 这 份 Shadow Map 可 以 留 给 该 场景 后 续 全 部 的 泻 
染 过 程 使 用 。 然 而 ， 很 多 场景 下 有 动态 光源 ， 比 如 被 
风 吹 动 的 吊灯 ， 此 时 物体 的 投影 也 会 不 断 变化 ， 此 时 
就 必须 每 一 帧 都 泻 染 出 一 副 Shadow Map 出 来 ， 这 样 开 
销 就 增加 了 。 


为 此 ， 人 们 开发 出 更 多 的 投影 计算 方式 ， 篇 幅 所 
限 这 里 就 不 多 介绍 了 。 


8.2.7.5 抗 锯齿 (Anti-Aliasing ) 


Anti-Aliasing， 俗 称 AA〔 抗 锯齿 ) 。 由 于 屏幕 上 每 
个 像素 都 是 四 四 方 方 的 ， 而 且 排 列 得 横 平 怪 直 ， 所 以 ， 
两 个 贴图 的 缝合 交界 处 就 会 产生 锯齿 ， 而 一 份 贴图 内 部 
不 会 产生 锯齿 ， 因 为 贴图 是 经 过 预先 处 理 的 ， 一 份 贴图 
内 部 的 不 同色 块 间 的 边缘 已 经 经 过 了 抗 锯 齿 处 理 。 所 
以 ， 图 形 边缘 部 分 难免 会 有 与 屏幕 的 x/y 轴 不 平行 的 曲线 
存在 ， 产 生 锡 齿 就 在 所 难免 了 。 锡 齿 产生 的 另外 一 个 原 
因 是 纹理 采样 精度 太 低 〈 见 前 文 ) ， 如 图 8-224 所 示 。 

如 图 8-225 左 侧 所 示 ， 满 屏 锯齿 的 体验 非常 差 。 
有 个 办 法 可 以 降低 锯齿 程度 ， 那 就 是 提高 屏幕 分 辨 
率 ， 让 每 个 像素 更 小 ， 这 样 锯齿 就 更 不 容易 分 辨 ， 如 
图 右 侧 所 示 为 提升 了 1 倍 分 辩 率 后 的 锯齿 情况 。 但 是 
带 来 的 代价 是 你 显示 器 的 价格 更 高 ， 而 且 需 要 渲染 成 
倍增 加 的 像素 点 ， 比 如 从 1280X720 (1 k) 分 辩 率 提 
升 到 2560X 1440 分 辨 率 (2 k) ， 要 泻 染 的 像素 点 其 实 
是 原来 的 4 倍 ， 最 终 的 帧 率 会 大 幅 降低 。 

为 此 ， 拿 出 我 们 的 超级 通用 武器 : МИН. 
齿 ， 补 上 不 就 完了 吗 。 如 图 8-226 所 示 ， 在 图 形 的 边 
缘 处 根据 某 像素 四 周 的 像素 颜色 做 插值 平均 ， 将 颜色 
写 入 该 像素 。 图 中 间 所 示 的 是 各 个 场景 插值 平均 之 后 
的 颜色 。 图 8-227 所 示 为 画面 对 比 。 

上 述 做 法 固然 可 以 ， 但 是 不 够 准确 ， 因 为 完全 依 
靠 现 有 的 周边 像素 信息 来 做 插值 ， 其 最 终 效果 是 虽然 
锯齿 程度 降低 了 ， 但 是 画面 也 变 得 模糊 了 ， 图 形 不 锐 
利 ， 有 腾腾 感 。 当 然 ， 这 完全 取决 于 每 个 人 不 同 的 审 
美观 ， 冬 瓜 哥 更 喜欢 既 锐 利 又 无 锯齿 的 画面 。 不 过 冬 
瓜 哥 至 今 也 没有 体验 过 4 k 显 示 器 呈现 的 几乎 看 不 出 锯 
齿 的 效果 ， 用 的 依然 是 1080P 的 显示 器 。 

要 想 更 精准 的 做 插值 ， 就 需要 更 加 准确 的 周围 像 
素 的 信息 。 唯 一 的 办 法 ， 就 是 先 用 高 分 辨 率 演 染 出 对 
应 的 纹理 ， 被 泻 染 出 的 纹理 包含 更 精确 的 信息 ， 然 后 
再 对 高 分 辩 率 的 纹理 进行 插值 求 平均 ， 得 到 低 分 辩 率 
的 纹理 。 如 图 8-228 所 示 ， 提 高 了 一 倍 分 辨 率 之 后 ， 
红 框 中 包含 的 信息 显然 更 丰富 了 ， 因 为 此 时 一 个 红 框 
中 其 实 包含 了 4 个 纹 素 ， 对 这 4 个 纹 素 进 行 插值 之 后 ， 
可 以 生成 更 精准 的 边缘 补偿 。 有 人 会 问 了 ， 这 样 不 还 
是 相当 于 提升 了 分 辩 率 来 抗 锅 齿 吗 ? 是 的 ， 只 是 不 需 
要 使 用 分 辩 率 显示 器 就 能 享受 到 近似 抗 锯齿 效果 。 

如 果 原 始 纹 素 分 辩 率 非常 高 ， 而 屏幕 分 辩 率 远 低 
于 纹 素 分 辩 率 ， 那 么 可 供 采 样 的 纹 素 非常 多 ， 此 时 该 
如 何 选择 呢 ? 如 图 8-229 所 示 ， 将 一 张 高 分 辨 率 图 片 
在 屏幕 上 进行 缩小 的 过 程 ， 其 实 就 是 将 诸多 纹 素 采 样 
平均 成 一 个 像素 的 过 程 。 


ву Н уче wopeqS c¿c-SBI 


Бај ЗААР уН а У ВНАЕМ deW мореч а вас 


色 一 一 计算 机 如 何 处 理 声 音 和 


第 8 章 2те 


ВИ М/Черү mopedS zzz-8 图 


dew mopeyS/deW y1daq/1a#ng-Z 


об | se | ог | sz | oz | $9 | о: ро | о | ot | or | or 


os | se | oe | с | oz | so | or | or | о: | о: | or | or 


ов | se | ог | sz | oz | so | о; | ог | ог | ot | or | or 


os | se | os | sz | oz | so | or | or | о: | о; | or | ог 


ов | se | ог | s4 | oz | so | or | ог ot | or | а 
os | se | ог | s4 | oz | so | or | ot or or 
os | е | ог | s4 | oz | 59 | or | ot | ог | ог о 


os | se | ог | 5, | oz | so | о: | ог | or [о | ог | ог 


os | se | os | 5, | oz | зэ | o9 | ss | os | s» | ог | se 


os | se | o | 5, | oz | 59 | оз | 55 | os | s» | ог | se 


os | se | ог | sz | oz | 59 | o9 | ss | os | s» | ог | se 


2 本 大 话 计算 机 一 一 计算 机 系统 底层 架构 原理 极限 剖析 


最 精准 的 无 非 是 将 该 像素 涵盖 的 所 有 纹 素 都 求 理 。 人 们 发 明了 多 种 不 同 的 采样 算法 ， 如 图 8-230 所 
加 权 平 均 ， 但 是 运算 量 太 大 。 为 此 ， 程 序 会 按照 一 。 示 ， 灰 色 框 表示 当前 像素 的 面积 ， 蓝 色 点 表示 要 采 


定 算法 ( 见 下文 ) 从 这 些 纹 素 中 取出 若干 个 而 不 样 求 平均 的 位 置 。 

是 全 部 ， 来 做 插值 平均 。 其 本 质 上 其 实 是 对 Over 图 8-231 所 示 为 上 述 各 种 采样 方式 的 效果 示意 图 。 

Sampling (ИХ) 的 纹理 进行 Down Sampling 处 由 于 该 方式 的 采样 点 范围 大 ， 样 点 数量 多 ， 
理想 情况 实际 情况 提升 分 辨 率 也 可 以 抗 锯齿 


图 8-224 ”锯齿 的 产生 
图 8-225 ”提高 屏幕 分 辩 率 可 以 抗 锯齿 
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图 8-227 ” 抗 锯齿 处 理 之 后 的 画面 对 比 


所 以 被 称 为 超级 采样 抗 锯 齿 〈Super-Sampling Anti- 
aliasing, SSAA) 。SSAA 对 屏幕 上 所 有 像素 点 (不 
仅仅 是 边缘 ) 都 进行 插值 采样 ， 相 当 于 对 整个 图 形 上 
所 有 像素 又 做 了 一 次 纹理 采样 过 滤 ， 顺 便 把 边缘 锯齿 
因 如 此 ， 其 又 被 称 为 FSAA (Full Screen 


也 消除 了 。 正 
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Anti Aliasing) 。 其 运算 量 非常 大 ， 每 个 样 点 都 要 按 
照常 规 流畅 泻 染 一 遍 ， 然 后 再 做 插值 平均 ， 所 以 其 需 
要 的 纹 素 缓冲 区 也 要 对 应 倍数 的 提升 。 但 是 它 的 效果 
也 是 目前 最 好 的 ， 没 有 之 一 ， 它 也 是 最 原始 最 精准 的 
抗 锯齿 方式 。 
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图 8-231 各 种 采样 样式 效果 示意 图 


在 一 些 3D 游 戏 中 ， 在 图 形 选项 界面 中 ， 会 给 出 一 
个 选项 ， 比 如 叫 作 SSAA 力 度 : 1X、2X、4X， 其 指 
的 就 是 采样 范围 和 样 点 的 数量 ， 范 围 越 高 数量 越 多 ， 
就 相当 于 原始 分 辩 率 提升 得 越 高 。 

SSAA 对 资源 耗费 过 大 ， 导 致 人 们 发 明 出 了 众多 
的 其 他 AA 方 式 。SSAA 对 全 屏幕 所 有 像素 进行 超级 采 
样 固然 好 ， 但 是 多 数 时 候 ， 句 齿 都 产生 在 三 角形 的 边 
缘 地 带 ， 如 果 仅 仅 对 这 些 地 方 做 抗 锯齿 ， 那 就 会 省 下 
大 量 运算 资源 。 

仔细 端详 图 8-232。 三 角形 边缘 处 产生 锯齿 的 根 
本 原因 ， 是 在 栅 格 化 时 候 使 用 的 一 刀 切 方式 。 程 序 
根据 两 个 顶点 之 间 的 直线 方程 ， 判 断 某 个 像素 的 中 心 
点 是 否 落 入 了 直线 靠近 三 角形 内 部 的 一 侧 ， 中 心 点 落 
入 了 则 认为 该 三 角形 覆盖 了 该 像素 ， 中 心 点 没落 入 ， 


ин 
ЖШ 


тт 


哪怕 差 一 点 ， 就 认为 该 像素 不 属于 该 三 角形 。 模 型 表 
面 的 两 个 三 角形 面 元 如 果 采 用 不 同 的 纹理 ， 纹 素颜 色 
值 差异 很 大 ， 那 么 它们 的 边界 处 颜色 过 渡 将 会 非常 明 
显 ， 形 成 严重 的 锯齿 感 ， 如 图 8-232 中 间 所 示 。 

如 果 能 够 只 栅 格 化 半 个 像素 就 好 了 ， 然 后 只 给 栅 
格 中 的 一 半 填 入 蓝 色 ， 另 一 半 填 入 粉色 。 可 是 ， 做 不 
到 。 一 个 像素 只 能 有 一 个 唯一 的 颜色 〈 下 文中 将 介绍 
SubPixel Rendering 技 术 采 取 了 巧妙 的 思想 缓解 这 个 问 
题 ) 。 那 么 ， 是 否 可 以 将 这 两 个 颜色 进行 调和 取 一 个 
中 间 色 ， 这 样 过 渡 就 不 突 克 ， 从 而 缓解 锯齿 感 呢 ? 没 
错 ， 这 就 是 关键 思路 所 在 。 

如 图 8-232 左 侧 所 示 ， 对 于 交界 处 的 像素 ， 理 想 
情况 是 该 像素 的 颜色 应 当 根据 每 个 三 角形 中 的 纹理 颜 
色 在 该 像素 中 所 占 面积 的 比例 来 进行 调和 ， 这 样 才 最 
精准 ， 锯 齿 也 就 大 为 缓解 了 ， 如 图 右 侧 所 示 。 

如 果 有 某 种 方式 能 够 计算 出 某 个 像素 中 各 颜色 比 
例 的 面积 ， 就 可 以 加 权 平均 出 理想 的 颜色 。 然 而 如 果 
要 对 每 个 像素 求 面积 ， 需 要 耗费 大 量 的 运算 资源 ， 不 
可 取 。 于 是 ， 人 们 想 出 另 一 种 方法 来 解决 这 个 问题 。 
在 做 栅 格 化 处 理 时 ， 如 果 能 够 在 一 个 像素 格子 内 部 放 
置 多 个 参考 点 ， 而 不 是 以 中 心 点 来 一 刀 切 的 话 ， 考 察 
每 个 三 角形 到 底 跨 越 了 多 少 个 参考 点 ， 利 用 参考 点 
个 数 的 比例 ， 就 可 以 达到 与 精确 计算 面积 比例 接近 的 
效果 。 

如 图 8-233 中 间 所 示 ， 假 设 我 们 在 一 个 像素 格子 
中 放置 了 16 个 参考 点 ， 在 栅 格 化 计算 时 ， 算 出 共有 多 
少 个 参考 点 落 入 了 某 三 角形 内 部 ， 然 后 用 对 应 的 比例 
来 调和 各 自 采 样 回来 的 纹理 颜色 。 我 们 假设 每 个 三 角 
形 的 纹理 为 单一 色彩 一 一 红 绿 蓝 粉 ， 最 终 调和 之 后 的 
效果 如 图 最 右 侧 所 示 。 这 种 抗 锯齿 方式 被 称 为 多 重 采 
样 抗 锅 齿 (Multi-Sampling Anti Aliasing, MSAA) 。 
可 以 看 到 这 种 方式 不 需要 为 一 个 像素 内 每 个 样 点 都 计 
算 颜 色 ， 这 些 样 点 仅 作 为 参考 点 ， 就 像 一 堆 传感器 一 
样 ， 其 作用 是 近似 考察 到 底 每 个 三 角形 跨越 了 一 个 像 
素 的 多 少 面积 ， 从 而 调和 三 角形 接壤 处 的 颜色 。 如 果 
同一 个 像素 有 多 个 三 角形 跨越 ， 那 么 就 读 出 该 像素 在 
各 自 三 角形 对 应 纹理 中 的 纹 素 ， 然 后 进行 按 比例 调 


Ë: 


图 8-232 


三 角形 的 边缘 是 锯齿 最 严重 的 地 方 


= 交界 处 调和 色彩 


图 
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和 。 如 果 有 16 个 参考 点 ， 最 差 的 情况 可 能 会 有 16 个 三 
角形 各 跨越 一 个 点 ， 此 时 就 需要 准备 16 个 用 于 存放 各 
自 纹 素 的 缓冲 区 ， 所 以 其 对 纹 素 缓冲 区 的 需求 为 原来 
的 16 倍 ， 这 样 耗费 太 高 。 实 际 中 ， 人 们 常 在 一 个 像素 
中 放置 4 个 参考 点 探 针 。 探 针 在 像素 格子 内 的 排列 方式 
也 有 多 种 ， 基 本 上 与 图 8-230 中 所 示 的 各 种 方式 类 似 。 

MSAA 对 那些 只 被 单个 三 角形 跨越 的 像素 (比如 
那些 处 在 三 角形 中 央 完 全 被 包 奢 的 ) 并 不 进行 任何 采 
样 插值 ， 因 为 此 时 该 像素 内 的 探 针 全 部 被 同一 个 三 角 
形 跨越 ， 其 对 应 的 纹 素颜 色 依然 是 从 该 三 角形 顶点 对 
应 的 纹理 坐标 插值 后 从 纹理 中 读 出 来 并 填充 的 ， 并 无 
变化 。 仅 对 那些 接壤 处 做 插值 处 理 ， 这 就 是 MSAA 可 
以 识别 模型 边缘 的 原因 。 

MSAA 能 够 用 比 SSAA 少 得 多 的 资源 得 到 不 错 的 
效果 ， 但 是 依然 要 为 每 个 样 点 读 取 对 应 的 纹理 并 调 
和 ， 如 果 样 点 数量 过 多 ， 性 能 损耗 也 较 大 。 于 是 ， 有 
人 又 发 明了 新 式 的 AA 算 法 ， 比 如 ，AIIAMD 开 发 的 
Enhanced Quality Anti-Aliasing (EQAA) 以 及 Nvidia 
开发 的 Coverage Sampling Anti-Aliasing (СЅАА) ， 这 
两 种 技术 的 原理 是 一 致 的 ， 只 是 叫 法 不 同 。 

如 图 8-234 所 示 ， 与 MSAA 不 同 的 是 ，EQAA/ 
CSAA 将 探 针 划分 为 两 类 : 面积 探 针 和 颜色 探 针 。 图 
中 所 示 的 黄 点 为 面积 探 针 (Coverage Sample) ， 红 
色 圈 为 颜色 探 针 (Color Sample) 。 每 个 颜色 探 针 也 
须 兼 做 面积 探 针 。 面 积 探 针 毫 无 疑问 是 用 于 探测 该 像 
素 被 三 角形 触 碰 与 否 ， 以 及 被 哪个 三 角形 触 碰 ， 这 样 
就 可 以 算出 每 个 三 角形 跨越 该 像素 面积 的 比例 权重 。 
如 果 某 三 角形 只 跨越 了 面积 探 针 ， 而 没有 跨越 颜色 探 
针 ， 那 么 该 三 角形 就 不 能 贡献 其 纹理 给 该 像素 。 只 有 
同时 跨越 了 面积 探 针 和 颜色 探 针 的 三 角形 ， 才 会 按照 
面积 比例 贡献 对 应 比例 的 纹理 颜色 。 这 样 ， 该 方式 可 
以 用 同样 的 探 针 数量 ， 但 只 耗费 一 半 的 纹理 读 取 和 填 
充 以 及 调和 的 运算 量 。 

上 述 的 AA 算 法 只 是 诸多 算法 中 的 典型 的 几 种 。 
在 性 能 和 效果 的 矛盾 之 间 ， 人 们 开发 出 了 大 量 的 AA 
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算法 ， 包 括 并 不 仅 限 于 : ЕХАА, TXAA. Edge АА, 
MLAA、SMAA、DLAA、SRAA、GPAA 等 。 由 于 篇 
幅 所 限 ， 这 里 不 再 多 介绍 了 。 

最 后 ， 再 介绍 一 种 比较 巧妙 的 处 理 方 法 : 
SubPixel 演 染 。 从 上 文 的 介绍 中 可 以 体会 到 ， 一 个 像 
素 只 能 拥有 一 个 颜色 ， 如 果 多 个 纹 素 都 对 同一 个 像素 
有 贡献 ， 那 就 得 插值 求 平均 出 来 一 个 颜色 ， 一 个 像素 
无 法 拥有 多 个 颜色 。 然 而 ， 对 于 目前 的 显示 器 来 讲 ， 
其 每 个 像素 是 由 红 绿 蓝 三 个 光源 组 成 的 ， 那 么 “一 个 
像素 只 能 拥有 一 个 颜色 ”似乎 又 不 太 对 。 像 素颜 色 是 
由 这 三 个 颜色 光源 混合 而 来 的 。 那 么 ， 对 于 一 些 细小 
的 锯齿 缝隙， 能 否 只 用 一 个 像素 三 分 之 一 的 面积 塞 到 
这 个 缝隙 中 做 补偿 ? 这 样 是 不 是 会 更 加 精准 ? 

是 的 。 通 过 突出 某 个 像素 中 的 红色 、 绿 色 或 者 
蓝 色 光源 的 亮度 值 ， 能 够 以 三 分 之 一 像素 的 粒度 来 补 
偿 锯 齿 ， 让 人 眼 感 受到 更 精细 的 边缘 ， 如 图 8-235 中 
间 的 S 字 体 所 示 。 当 然 ， 如 果 对 这 个 屏幕 进行 系统 内 
部 截图 ， 截 图 出 来 之 后 ， 用 于 补偿 锯齿 的 像素 依然 会 
是 某 个 单一 色 值 的 色 块 纹 素 ， 如 图 最 右 侧 所 示 。 但 是 
这 个 纹 素 在 屏幕 上 显示 的 时 候 ， 隔 近 了 仔细 看 的 确 会 
是 对 应 颜色 ， 但 是 隔 远 了 看 就 会 看 出 更 细腻 的 边缘 ， 
因为 这 个 像素 中 只 有 三 分 之 一 或 者 三 分 之 二 的 部 分 更 
亮 ， 这 种 机 制 对 边缘 补偿 得 更 加 精细 。 而 且 此 时 也 基 
本 上 看 不 出 该 补偿 像素 的 颜色 ， 会 认为 整个 字体 都 是 
黑色 的 。 不 信 ? 把 书本 的 这 一 页 离 远 了 看 看 ， 感 受 一 
下 。 图 中 下 方 所 示 为 冬瓜 哥 对 着 屏幕 拍摄 所 得 图 片 ， 
可 以 看 一 下 该 字体 是 怎么 泻 染 的 ， 似 乎 并 没有 使 用 
Sub-Pixel 技 术 ， 而 只 是 将 边缘 部 分 做 灰 度 处 理 。 另 外 
一 个 发 现 是 每 个 像素 格子 中 似乎 并 不 是 纯正 的 红 绿 蓝 
三 色 ， 好 像 还 有 一 些 更 丰富 的 过 渡 色 。 不 知道 是 该 显 
示 器 用 了 更 精细 的 色 板 ， 还 是 拍摄 感光 产生 的 效应 ， 
这 就 留 给 大 家 去 研究 吧 。 


8.2.7.6 ”光照 控制 纹理 (Light Mapping ) 
前 文中 我 们 介绍 过 利用 顶点 的 法 线 计 算 光照 ， 
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可 以 使 用 漫 反射 、 高 光 等 方式 来 产生 不 同 的 光照 效 。 不 如 直接 用 一 张 预 设置 好 的 控制 纹理 作用 到 程序 中 来 
果 。 也 介绍 了 直接 利用 法 线 纹理 方式 ， 强 制 欺骗 负责 ”得 便捷 和 快速 ， 只 是 需要 多 占用 一 些 存储 空间 。 如 图 
光照 处 理 的 程序 “ 某 个 нан визе ， 然 后 ”8-237 所 示 为 高 光 控制 纹理 作用 原理 示意 图 。 在 高 光 
о 5 。 法 线 纹理 。 纹理 中 ， 也 是 利用 灰 度 来 控制 反射 率 ， 越 白 的 地 方 ， 
gh "ак 反射 率 越 高 ， 比 如 木 桶 的 金属 包 边 拥有 较 高 的 反射 
они 点 移动 率 。 如 图 中 右 侧 所 示 的 磨 光 石头 墙 面 ， 石 头 表面 反射 
p) ， 其 属于 率 较 高 ， 而 用 于 粘 合 石头 的 水 泥 反射 率 较 低 。 

Sow Мар tik 除了 高 光 控 制 ， 还 有 另 一 种 常见 的 效果 ， 即 光泽 
z-buffer 生 成 的 深度 图 (Depth Мар) (Gloss) 效果 。 光 泽 这 个 词 很 难 形容 该 效果 ， 还 是 
或 者 就 叫 Shadow Map， 其 也 是 РНИИ, 亲眼 看 一 下 比较 好 ， 如 图 8-238 所 示 。 有 些 物 体 表 面 
所 以 也 属于 光照 控制 纹理 。 上 同时 具有 漫 反射 较 强 的 质地 和 镜面 反射 质地 。 比 如 

ный о 一 个 地 球 模型 中 的 海洋 和 湖泊 拥有 镜面 反射 效果 ， 而 

23 Мар) 。 直 接 把 一 幅 亮度 图 陆地 则 只 有 漫 反射 。 再 比如 表面 的 水 涡 、 玻 璃 表面 的 
Same sta Ë, 就 相当 er 大 片 污渍 等 ， 都 会 产生 这 种 效果 。 程 序 利 用 一 张 Gloss 
源 ， 实 际 上 场景 中 并 没有 光源 ， 一 切 都 是 假 的 ， 但 “Map 控制 纹理 ， 越 白 的 地 方 表示 该 处 有 镜面 反射 ， 作 
是 看 上 去 就 像 真 的 。 图 也 是 Light Map 的 一 类 。 用 于 物体 表面 之 后 就 产生 了 对 应 的 光照 效果 。 
如 图 8-236 所 示 为 当年 流行 的 第 一 人 称 视 角 设计 游戏 在 实际 中 ， 多 种 纹理 往往 会 同时 使 用 ， 如 图 
《Quake》 所 使 用 的 亮度 图 ， 效 果 牛 得 非常 无 耻 ! 当 ”8-239 和 图 8-240 所 示 。 飞 行 员 的 眼镜 表面 具有 相对 最 
然 ， 由 于 光源 是 假 的 ， 所 以 它 无 法 投 出 动态 的 影子 ， 高 程 ee 这 一 点 也 体现 在 了 Specular Map 
一 切 只 能 是 静态 展示 。 中 的 白色 最 亮 部 分 。 同 时 ， 眼 球 的 眼 白 部 分 使 用 了 光 

n a 泽 纹理 。 
ip) UKWA 还 有 其 他 一 些 控制 纹理 ， 比 如 A р, № 
j TAER: 当 于 利用 一 张 bitmap 该 能 体会 到 它 的 作用 了 。 利 用 Alpha Мрз 中 的 亮 
PERMET С 度 来 控制 物体 表面 的 透明 度 ， 从 而 体现 Alpha 测 试 阶 
线 计算 出 来 ， 但 终究 — 段 的 结果 ， 如 图 8-241 所 示 。 
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应 用 了 各 种 纹 


图 8-241 


Alpha Map 控 制 纹理 


总 之 ， 前 文 以 及 上 文中 所 述 的 纹理 映射 ， 本 质 上 
都 相当 于 给 模型 表面 化 妆 ， 多 种 技术 可 以 同时 使 用 ， 
- 层 加 一 层 ， 每 一 层 的 效果 都 是 又 加 发 挥 作用 的 。 比 
如 还 有 一 类 纹理 专门 负责 给 表面 增加 颗粒 感 以 及 脏 今 
今 的 感觉 以 体现 更 加 真实 的 场景 。 目 前 有 些 游戏 中 其 
至 采用 了 十 几 层 不 同 纹理 。 这 种 将 多 种 纹理 作用 于 模 
型 表面 的 方式 被 称 为 Multi Texturing (EEH) 。 


8.2.7.7 ”纹理 动画 ( Texture Animation ) 


上 文中 介绍 了 诸多 纹理 ， 可 见 ， 纹 理 的 确 是 非常 
有 用 的 东西 ， 可 以 实现 很 多 特效 。 更 深 一 步 理 解 ， 纹 
理 其 实 已 经 不 仅仅 指 “ 图 案 ” 了 ， 它 的 本 质 是 一 种 控 
制 信息 ， 它 与 定点 的 颜色 、 坐 标 、 纹 理 坐 标 等 属性 一 
样 ， 只 不 过 存储 的 位 置 不 同 罢了 。 同 理 ， 定 点 的 颜色 
也 是 一 种 控制 信息 ， 如 果 我 们 根本 不 使 用 顶点 颜色 值 
来 为 面 元 着 色 ， 而 直接 采用 颜色 纹理 来 贴图 着 色 ， 那 
么 存储 定点 的 颜色 值 还 有 什么 用 处 呢 ? 比如 ， 可 以 把 
用 于 实现 项 点 移动 从 而 产生 动画 的 变形 坐标 值 以 及 控 
制 信息 存储 在 顶点 的 颜色 值 中 ， 在 顶点 的 坐标 变换 阶 
段 ， 根 据 存储 的 这 些 控制 信息 和 坐标 值 ， 将 顶点 改变 
到 对 应 的 位 置 ， 以 实现 与 置换 贴图 类 似 的 效果 。 

甚至 ， 可 以 将 一 些 预先 设 定好 的 顶点 坐标 位 置 动 
画 信息 存储 到 纹理 bitmap 中 ， 坐 标 位 置 的 x/y/z 值 可 以 
被 表示 为 RGB 颜色 值 。 旋 转 坐 标 系 信息 可 以 被 保存 为 
四 元 数 ， 保 存 到 带 有 Alpha 通 道 的 bitmap 纹 理 中 。 


之 后 的 角色 模型 (2) 
在 顶点 坐标 变换 阶段 ， 在 计时 器 的 控制 下 ， 程 序 可 以 
信息 来 对 顶点 进行 变换 以 及 实 

时 泻 染 。 在 一 张 4096X4096 的 纹理 里 ， 如 果 使 用 RGB 
信息 来 存储 顶点 的 位 置信 息 ， 就 可 以 容纳 十 几 万 个 项 
点 的 信息 ， 如 果 按 照 每 秒 30 帧 来 生成 动画 ， 就 可 以 容 
纳 120 帧 的 动画 信息 ， 也 就 是 4 秒 的 动画 。 如 果 场 景 中 
3 动画 可 

而 


+ 算 ， 所 以 可 以 零 成 
模拟 效果 ， 比 如 图 8-242 中 的 А 
置 是 提前 运算 好 的 ， 但 是 图 形 生 R ЏЕЈ 
їй, РН 。 如 果 将 动画 提前 
录制 成 视频 格式 ， 触 发 时 播放 出 来 ， 那 就 并 非 实时 泻 
染 了 。 

如 图 8-243 所 示 为 利用 两 张 纹理 来 存储 一 个 人 物 
脸 部 的 动画 。 左 边 的 纹理 存储 了 随时 间 变 化 的 旋转 信 
息 〈 每 一 行 对 应 着 特定 的 一 帧 ， 每 一 列 对 应 脸 部 一 根 
骨骼 的 旋转 信息 ) ; 右边 的 纹理 存储 了 随时 间 变 化 的 
坐标 位 置信 息 〈 每 一 行 对 应 着 特定 的 一 帧 ， 每 一 列 对 
应 一 根 骨 骼 的 位 置信 息 ) 。 通 过 纹理 动画 技术 ， 可 以 
使 用 两 张 4096x4096 的 纹理 来 保存 166 分 钟 的 人 脸 动 画 
( 共 56 根 骨骼 》， 动 画 速度 每 秒 30 帧 。 


游戏 动画 帧 率 、 泻 染 帧 率 以 及 显示 器 刷新 
率 ， 看 上 去 比较 容易 混淆 。 动 画 帧 率 是 绘图 程序 
每 秒 主动 尝试 泻 染 多 少 帧 ， 比 如 鼠标 移动 了 1 英寸 
导致 场景 视角 旋转 了 3 英寸 ， 而 绘图 程序 被 设计 为 
每 0.05 英 寸 就 泻 染 一 帧 ， 那 么 如 果 该 移动 持续 了 
1 秒 ， 那 么 程序 给 出 的 原始 帧 率 为 20 帧 。 但 是 受 
限于 系统 硬件 的 性 能 ， 如 果 程 序 每 秒 只 能 泻 染 15 
帧 ， 此 时 底层 任务 队列 会 被 压 满 ， 这 会 导致 程序 
丢弃 其 中 5 帧 ， 不 得 不 取消 渔 染 。 而 此 时 ， 显 示 器 
的 刷新 率 是 恒定 不 变 的 ， 比 如 恒定 为 每 秒 60 帧 ， 


计算 机 如 何 处 天 


这 意味 着 显卡 依然 是 每 秒 播放 60 次 Frame Buffer 
中 的 全 部 像素 ， 但 是 由 于 Frame Buffer 中 的 像素 每 
秒 只 变化 了 15 次 ， 所 以 纵使 显示 器 刷新 60 次 ， 其 
实 是 每 刷新 4 次 屏幕 像素 才 会 产生 一 次 变化 ， 而 用 
户 的 感 观 就 是 15 帧 的 帧 率 。 如 果 显 卡 的 算 力 足以 
支撑 到 更 高 的 帧 率 比如 每 秒 90 帧 ， 那 么 显示 器 的 
刷新 率 就 是 瓶颈 了 ， 此 时 虽然 显卡 真 的 会 以 每 秒 
90 次 来 更 新 Frame Buffer， 但 是 RAMDAC 却 依然 
以 60 帧 的 频率 去 播放 ， 那 么 这 期 间 会 有 三 分 之 

的 帧 成 为 无 效 帧 。 这 样 除了 浪费 电 之 外 ， 还 会 导 
致 画面 撕 裂 ， 比 如 在 扭转 视角 的 时 候 ， 你 会 发 现 
屏幕 的 上 半 部 分 与 下 半 部 分 可 能 被 撕 成 两 半 ， 其 
原因 就 是 RAMDAC 还 没 播放 完 上 一 整 帧 图 像 时 ， 
显卡 就 把 下 一 帧 图 像 塞 入 Frame Buffer 了 ， 而 当 
RAMDAC 继 续 播放 下 半 屏 的 图 像 时 ， 播 放 的 是 下 
一 帧 的 下 半 部 分 。 不 过 这 个 效应 持续 时 间 较 短 ， 
基本 不 影响 体验 ,而 且 多 数 人 也 体验 不 到 。 为 什 


Z? 因为 多 数 人 的 显卡 算 力 根本 达 不 到 高 于 60 帧 
的 帧 率 。 于 是 你 会 在 很 多 游戏 中 看 到 一 个 选项 叫 
作 “ 垂 直 同 步 (VSync ) ”， 其 含义 就 是 让 显卡 
根据 当前 RAMDAC 的 刷新 率 来 决定 泻 染 的 帧 率 ， 
保持 同步 ， 不 做 无 用 功 。 这 个 效应 还 可 以 使 用 多 
份 Frame Buffer 来 彻底 解决 。 比 如 采用 双 FB 方 式 ， 
在 RAMDAC 不 断 扫 描 其 FB#1 时 ， 上 层 程序 先 泻 
染 到 FB#2， 然 后 使 用 对 应 命令 让 显卡 RAMDAC 
切换 到 FB#2 扫 描 ， 此 时 程序 将 新 泻 染 的 图 像 写 入 

到 FB#1， 循 环 往复 。 目 前 主流 显卡 最 大 支持 三 份 
FB， 此 时 已 经 基本 上 消除 了 画面 撕 裂 效应 。 


仔细 体会 一 下 光照 控制 纹理 、 纹 理 动画 的 机 制 ， 
其 实 它 们 本 质 上 都 是 将 需要 运算 的 信息 存 入 纹理 中 然 
后 运算 。 对 于 一 些 通用 计算 (并 非 图 像 类 的 ) ， 那 是 
不 是 也 可 以 将 待 运算 的 数据 转换 成 RGBA 写 入 到 纹理 
中 ， 然 后 载 入 运算 呢 ? 没 问 题 ， 因 为 执行 运算 的 程序 
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根本 就 不 管 纹理 中 是 什么 ， 你 的 数据 转换 为 bitmap 之 


后 ， 可 能 恰巧 是 一 幅 很 好 看 的 抽象 画 
机 噪声 ， 也 有 可 能 是 很 
这 些 图 片 是 否 好 看 呢 ， 我 们 要 的 是 计算 结 
让 绘图 程序 执行 通用 计算 的 原理 ， 如 果 使 用 多 


也 有 可 


能 是 随 


陋 的 图 形 ， 但 是 ， WE X fE F 
果 。 这 就 是 


部 3D 图 


形 加 速 卡 ， 那 么 通用 计算 的 速度 相 比 CPU 计算 速度 而 
言 就 会 大 幅 提 升 。 我 们 将 在 其 他 章节 介绍 利用 显卡 执 


行 通用 计算 加 速 的 方法 。 
们 对 3D 演 染 特效 的 介绍 就 到 此 为 止 。 


精力 所 限 


粒子 效果 、 环 境 光 贴图 、 全 局 光照 与 
等 ， 以 及 图 8-196 中 所 示 的 各 种 技术 。 


5 次 表 


， 有 兴趣 的 读者 可 以 自行 了 解 下 面 i 
流 特效 技术 ; 环境 光 庶 天、 延迟 演 染 、 光线 追踪 、 


这 些 特 效 的 纪 


面 散射 


合 可 以 演 染 出 令 人 叹为观止 、 接 近 甚 至 超越 真实 的 


画面 。 


8.2.8 当代 3D 游 戏 制作 过 程 


当代 ，3D 游 戏 已 经 发 展 到 了 惊人 的 程度 ， 其 画 


面 表现 力 达 到 了 照片 级 以 


恨 乱 真 的 程度 。 首 先 ， 设 


定 游戏 的 题材 和 风格 ， 比 如 是 解密 题材 、 战 争 射击 
题材 、 策 略 题材 、 动 作 冒 险 题材 等 ， 以 及 FPS 第 一 


人 称 视 角 射 击 或 是 第 三 人 称 视 角 射 击 /动作 游戏 等 


ITTTTT 


接着 ， 设 定 剧情 和 文化 背景 ， 导 演 构思 宏观 场景 和 
剧情 发 展 。 然 后 就 是 具体 场景 设计 ， 出 概念 图 ， 美 
术 设 计 师 使 用 高 精度 电子 画板 直接 描绘 2D 电 子 图 片 
素材 。 然 后 就 是 素材 设计 人 员 根 据 概念 图 来 3D 建 模 
和 制作 材质 纹理 ， 然 后 是 后 期 的 动作 捕捉 及 动画 制 
作 ， 以 及 游戏 中 其 他 角色 的 行为 设计 等 。 最 后 将 这 
些 素材 全 部 串 接 起 来 ， 形 成 最 终 的 游戏 程序 。 一 个 
大 型 游戏 ， 可 能 需要 数 百 人 /年 的 制作 周期 。 其 本 质 

与 电影 拍摄 类 似 ， 只 不 过 场景 和 角色 完全 是 用 电 
脑 制作 出 来 的 。 

图 8-244 所 示 为 场景 和 角色 概念 图 ， 这 些 图 看 上 
去 是 3D 演 染 出 来 的 ， 其 实 是 美术 人 员 亲 手 在 2D 平 面 
上 画 出 来 的 ， 因 为 3D 设 计 人 员 需 要 根据 美术 人 员 的 概 
念 图 来 设计 3D 场 景 。 图 8-245 所 示 为 美工 人 员 利 用 电 
子 画板 来 描绘 场景 和 角色 概念 图 、 修 饰 各 个 角色 以 及 
制作 材质 。 

图 8-246 一 图 8-250 展 示 了 一 
最 终 演 染 的 过 程 。 

图 8-251 所 示 为 动作 捕捉 现场 。 因 为 要 给 角色 加 
入 动画 ， 比 如 当 点 击 鼠 标 时 ， 角 色 做 出 某 个 动作 ， 其 
举手投足 都 需要 非常 真实 。 通 过 给 真人 的 关键 身体 部 
位 贴 上 传感器 ， 然 后 真人 做 出 对 应 的 动作 ， 将 传感器 
信号 捕捉 下 来 ， 就 可 以 精确 知道 做 这 个 动作 的 时 候 ， 


个 人 物 角色 从 建 模 到 


图 8-245 ”美工 制作 过 程 


UV 展开 


AA) 
diffuse 


(еру > 


sss weight beard density 


cavity 


Бете а ош аб 1937 s 


(o © 


sss weight 


图 8-248 ”根据 展开 的 UV 精确 生成 各 种 控制 纹理 


3D 模 型 角色 中 的 哪些 顶点 坐标 位 置 需要 被 牵动 。 将 这 
些 信息 记录 到 动画 文件 中 ， 游 戏 运行 时 跟随 动画 触发 
条 件 ， 载 入 这 些 信息 ， 在 顶点 坐标 变换 阶段 根据 这 些 
信息 来 改变 顶点 位 置 ， 就 可 以 形成 动画 。 


8.2.9 Зр ние 


可 顾 上 文中 介绍 过 的 图 像 程 。 每 一 帧 图 
像 ， 从 一 开始 只 有 顶点， 到 最 后 丰富 的 细节 ， 这 期 间 
需要 对 其 做 十 几 种 特效 处 理 ， 而 且 是 针对 每 个 顶点 、 
每 个 像素 都 要 做 对 应 的 计算 。 想 一 下 ， 这 其 实 就 像 用 


PhotoShop 处 理 2D 图 片 一 样 ， 而 且 ， 每 秒 需要 能 够 处 
理 几 十 甚至 上 百 张 图 片 〈 至 少 30 帧 才能 感觉 流畅 , 
如 此 大 的 运算 量 ， 如 果 仅 仅 靠 CPU 的 话 ， 是 无 法 做 到 
的 。 除 非 需要 演 染 的 场景 非常 简单 ， 比 如 一 个 单一 颜 
色 的 正方 体 ， 此 时 即便 是 CPU 处 理 ， 也 可 以 达到 每 秒 
一 千 帧 以 上 的 帧 率 。 但 是 对 于 一 个 大 型 复杂 3D 游 戏 场 
景 而 言 ， 比 如 8.2 节 一 开始 的 《神秘 海域 4》 场 景 ， 如 
果 其 利用 CPU 来 计算 ， 恐 怕 每 秒 只 能 输出 几 帧 甚至 一 
帧 都 不 到 。 

用 CPU 来 处 理 图 像 效 率 比较 低 的 关键 原因 就 是 ， 
高 分 辩 率 的 图 像 包含 的 像素 数量 非常 庞大 ， 每 个 像素 
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需要 做 的 运算 步骤 也 较 多 ， 两 者 相 乘 ， 输 出 一 幅 / 


Е 


像 耗费 的 时 间 也 就 很 长 。 要 提升 帧 率 ， 就 需要 将 这 个 


处 理 过 程 并 行 化 。 图 形 的 处 理 非常 容易 并 行 化 ， 
每 个 顶 


相 乘 ， 每 个 顶点 之 间 毫 无 依赖 关系 ， 此 时 就 可 以 采用 
多 核心 多 线程 来 将 所 有 要 计算 的 顶点 均 分 计算 。 针 对 


为 


/像素 执行 的 运算 基本 都 相同 。 比 如 在 做 坐标 


和 矩阵 变换 的 时 候 ， 所 有 项 点 坐标 都 与 同一 个 变换 矩阵 


同一 个 像素 有 多 个 计算 步骤 ， 看 上 去 只 能 串 行 计算 
无 法 并 行 。 但 是 还 记得 本 书 第 4 章 介绍 的 流水 线 技术 
么 ? 某 个 计算 有 多 个 步骤 ， 这 正好 符合 流水 线 的 规 


第 8 章 “绘声绘色 一 一 计算 机 如 何 处 理 声音 和 


律 ， 只 要 有 大 量 的 原材料 需要 被 处 理 ， 也 可 以 并 行 。 这 样 ， 在 两 个 维度 
行 可 以 充分 对 图 像 处 理 过 程 进行 并 行 化 。 这 也 就 意味 着 ， 需 要 大 量 的 硬 
件 核心 数量 来 支撑 这 种 并 行 化 。 或 者 使 用 更 加 高 效 的 SIMD (本 书 前 文中 
介绍 过 ) 核心 来 用 一 条 指令 同时 处 理 多 份 数据 ， 这 也 是 一 种 并 行 方式 ; 
或 者 使 用 专门 的 纯 数字 逻辑 运算 电路 ， 免 去 载 入 指令 、 译 码 、 运 算 的 元 
长 过 程 ， 提 升 执行 速度 ， 同 时 加 大 寄存 器 位 宽 ， 这 样 也 可 以 做 到 加 速 。 
至 于 具体 使 用 什么 方式 或 者 混合 方式 ， 随 产品 而 不 同 。 

我 们 在 8.2.4 节 中 介绍 过 1984 年 由 IBM 推 出 的 PGC 图 形 加 速 卡 ， 其 虽 
然 可 以 加 速 3D 图 形 的 绘制 ， 但 是 其 只 是 将 一 部 分 绘制 任务 〈 主 要 是 几何 
坐标 变换 和 栅 格 化 阶段 任务 ) 从 原本 的 Host 端 的 CPU 上 Offload 到 它 自 己 
的 内 置 的 Intel 8088 CPU 上 ， 速 度 其 实 并 无 质 的 飞跃 ， 只 不 过 由 于 其 内 
置 的 CPU 离 Frame Buffer 更 近 ， 可 以 避免 很 多 Host 总 线 流量 ， 从 而 提升 了 
性 能 。 而 且 PGC 通 过 提供 特定 的 绘图 命令 ,方便 了 开发 。 然 而 ，PGC 并 
不 支持 直接 用 一 张 颜色 纹理 bitmap 进 行 纹理 采样 和 填充 到 图 形 ，Host 端 
必须 先 载 入 bitmap， 抽 取 像 素 ， 然 后 通过 Areafill 命 令 控 制 PGC 将 像素 写 
到 对 应 位 置 。 即 便 如 此 ，PGC 在 当时 已 经 是 非常 超前 的 高 端 概念 型 产品 
了 。 尤 其 是 其 使 用 队列 接收 泻 染 命令 的 设计 ， 在 现代 看 来 司空 见 惯 ,但 
是 在 当时 却 很 超前 ， 甚 至 在 一 些 后 期 的 其 他 产品 中 也 没有 这 样 去 实现 。 
那 时 候 人 们 普遍 的 想法 是 ， 将 一 切 控制 选项 通过 暴露 寄存 器 来 实现 ， 比 
如 下 文中 将 介绍 的 S3 ViRGE 显 卡 。 


8.2.9.1 3D 图 形 泻 染 管线 回顾 


不 管 加 速 与 否 ， 整 个 3D 图 形 的 演 染 流程 ， 一 样 都 不 能 少 ， 只 是 由 
谁 来 做 的 问题 ， 做 得 快 与 慢 的 问题 。 所 以 ， 我 们 先 梳理 一 下 整个 3D 图 
形 演 染 流水 线 ， 或 者 有 人 称 之 为 演 染 管线 (Rendering Pipleline) 。 
称谓 并 不 重要 。 我 们 将 前 文中 介绍 过 的 流程 以 及 各 种 特效 结合 到 一 起 
来 展示 ， 如 图 8-252 所 示 为 3D 演 染 流水 线 各 步骤 作用 、 称 谓 以 及 各 特 
效 作 用 的 位 置 示意 图 。 这 张 图 可 谓 是 对 整个 图 形 演 染 流程 的 归纳 。 大 
家 不 妨 按照 这 个 步骤 闭 目 冥想 ， 再 次 结合 在 游戏 中 移动 了 一 下 鼠标 ， 
视角 发 生 了 旋转 ， 思 考 系统 底层 都 发 生 了 什么 ， 从 鼠标 将 新 位 置 坐 
标 返 回 给 Host 端 开始 。 鼠 标的 底层 原理 我 们 在 本 书 第 7 章 USB 节 中 介 

上 文中 介绍 过 的 一 些 演 染 特效 各 自发 生 在 某 些 阶段 ， 有 些 特效 需要 
多 个 阶段 共同 完成 ， 比 如 MSAA 和 SSAA。MSAA/CSAA/EQAA 在 栅 格 化 
时 需要 引入 更 多 探 针 用 于 判断 面积 比例 ， 而 真正 将 多 个 颜色 混合 会 发 生 
在 ROP 阶 段 。 
提示 * 

值得 一 提 的 是 ， 有 人 将 像素 着 色 阶段 对 应 的 处 理 程序 称 为 
Fragment Shader 而 不 是 Pxiel Shader， 其 原因 是 此 时 像素 还 没有 被 最 
终生 成 ， 存 在 的 只 是 一 个 栅 格 ， 直 到 最 后 一 步 混 合 输 出 阶段 才 会 最 
终 确定 栅 格 的 颜色 ， 带 有 颜色 的 栅 格 才 是 像素 。 但 是 Fragment (Я 
元 ) 看 上 去 很 容易 与 Primitive ( HA) 相 混淆 ， 所 以 冬瓜 哥 还 是 用 
Pixel Shader" 双 。 在 下 文中 的 一 些 图 示 中 的 Fragment， 也 都 是 指 Pixel。 
Geometry ( 几何 ) 这 个 词 在 图 形 学 领域 出 现 的 频 度 也 比较 高 ， 其 泛 指 
顶点 几何 处 理 阶段 。 熟 悉 这 些 词汇 对 后 续 的 学 习 大 有 和 祥 益 。 比 如 你 
再 看 一 些 架构 图 或 者 流程 图 的 时 候 ， 看 到 诸如 Geometry Processor, 
Geometry Stage、Geometry Pipeline 等 的 时 候 就 能 够 迅速 理解 其 意思 和 
背景 。 
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图 8-252 3D 演 染 流水 线 各 步骤 作用 、 称 谓 以 及 各 特效 作用 的 位 置 示意 图 
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8.2.9.2 固定 泻 染 管线 3D 图 形 加 速 


如 图 8-253 所 示 为 泻 染 管线 各 部 分 的 处 理 吞 吐 量 
示意 图 。 即 便 是 让 CPU 不 处 理 数 据 ， 而 仅仅 是 复制 数 
据 ， 达 到 如 此 大 的 吞吐 量 也 需要 耗费 大 量 CPU 资源 ， 
当然 ，CPU 可 以 使 用 DMA 引 擎 来 作 整 ， 这 要 另 当 别 
论 了 。 
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图 8-253 ” 演 染 管线 各 部 分 的 处 理 吞 吐 量 示 意图 


现在 该 是 审视 加 速 泻 染 的 时 候 了 。 要 加 速 ， 
当然 要 先 挑选 那些 实现 简单 而 且 加 速效 果 又 好 的 步 
骤 ， 这 样 立 竿 见 影 。 纵 观 上 述 流水 线 步骤 ， 似 乎 哪个 
都 有 被 大 幅 加 速 的 潜力 ， 比 如 坐标 变换 过 程 ， 对 于 
1280X72=92 万 像素 每 一 个 都 要 做 多 轮 乘法 和 加 法 ， 
用 多 核心 并 行 加 速效 果 非 常 好 。 再 比如 栅 格 化 处 理 ， 
用 多 线程 中 的 每 个 线程 处 理 一 部 分 面 元 的 计算 ， 这 也 
很 好 。 再 比如 颜色 纹理 采样 和 过 滤 、 高 级 纹理 映射 ， 
牵扯 到 成 倍数 量 的 纹 素 值 采 样 以 及 颜色 调和 求 平均 值 
计算 ， 多 核心 并 行 处 理 更 是 如 鱼 得 水 。 


提示 > 
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染 ， 因 为 2D 图 形 动画 多 数 场景 是 图 元 的 平移 、 旋 转 
坐标 变换 和 颜色 /贴图 的 重新 填充 ， 很 少 有 图 元 扭曲 
ЖА, ИЖЕ НН, УМЕ У 
扯 到 纹理 过 滤 、 抗 锯齿 等 额外 运算 处 理 。 但 是 鉴于 
屏幕 上 像素 数量 非常 大 ，CPU 的 执行 单元 数量 不 够 
多 ， 所 以 泻 染 2D 图 像 也 会 耗费 较 高 CPU 资源 ， 性 能 
不 理想 。 


人 们 采用 经 过 并 行 优化 的 专门 的 外 置 加 速 芯片 ， 
将 其 通过 某 种 总 线 ， 比 如 PCIPCIE 与 Host 端 的 CPU 前 
端 总 线 相连 ， 一 般 会 把 该 加 速 器 做 到 一 张 PCLPCIE 卡 
上 插 到 主板 插 槽 ， 也 就 形成 了 所 谓 的 3D 图 形 加 速 卡 。 
后 来 Nvidia 把 这 种 图 形 加 速 器 称 为 Graphic Processing 
Unit (GPU) 。 

最 好 是 将 所 有 步骤 全 都 卸载 到 专用 加 速 芯片 中 
执行 ， 但 是 这 样 成 本 就 会 很 高 。 如 果 让 冬瓜 哥 来 
选 ， 自 然 会 先 选 择 离 着 Frame Buffer 比 较 近 的 那些 步 


又 来 加 速 ， 由 远 及 近 地 御 载 ， 比 如 按照 先 卸 载 ROP 
ме. ная, ЖАИ И 
等 。 这 也 是 常规 思维 。 历 史上 实际 的 确 也 是 这 样 实 
现 的 。 

在 20 世 纪 90 年 代 中 后 期 出 现 的 面向 PC 消费 市 场 
的 GPU， 其 仅仅 对 栅 格 化 、 像 素 采样 填充 、ROP 这 三 
个 阶段 做 加 速 ， 而 并 没有 加 速 几 何 处 理 阶段 。 如 图 
8-254 所 示 ， 对 于 这 种 GPU， 应 用 端的 绘图 程序 需要 
自行 负责 将 顶点 的 几何 处 理 阶 段 、2D 化 之 后 的 顶点 坐 
标 以 及 纹理 信息 传递 给 GPU，GPU 内 部 的 栅 格 化 器 、 
像素 /纹理 处 理 器 和 ROP 处 理 器 分 别 负责 对 剩 下 的 三 
个 阶段 进行 并 行 加 速 计算 处 理 ， 并 直接 输出 到 Frame 
Buffer 中 显示 。 

不 同 GPU 对 这 三 个 角色 的 实现 也 略 有 不 同 ， 但 
是 本 质 上 的 路 数 都 类 似 。Rasterizer 栅 格 化 器 相对 
比较 简单 ， 是 个 纯粹 的 计算 密集 型 角色 ， 其 读 取 项 
点 坐标 ， 乘 以 变换 矩阵 ， 仅 此 而 已 。 当 然 ， 如 果 使 
用 了 MSAA， 其 还 需要 根据 MSAA 力 度 参 数 使 用 对 
应 的 探 针 多 计算 一 些 步骤 ， 不 过 那 时 候 的 显卡 几乎 
都 不 支持 抗 锅 齿 。 更 复杂 的 处 理 其 实 都 落 在 了 Pixel 
Shader 上 ， 也 就 是 图 中 的 Texture Unit， 或 者 又 被 称 
为 Texture Mapping Unit (TMU) 。TMU 的 任务 最 为 
繁重 ， 其 需要 执行 Rasterizer 传 递 过 来 的 每 个 像素 ， 
为 像素 着 色 ， 执 行 Pixiel Shader 的 功能 。 其 需要 读 
取 纹理 ， 并 按照 对 应 参数 〈 比 如 双 线性 、 三 线性 、 
各 向 异性 、 是 否 用 Mipmap 等 ) 做 纹理 上 映射、 透视 修 
正 等 。 

如 图 8-255 左 侧 和 右 侧 所 示 分 别 为 某 产品 使 用 的 
TMU 和 ROP 示 意图 。 图 中 所 示 的 TMU 单 元 由 上 方 的 
负责 读 取 纹 理 的 Texture Address Unit (TAU) 以 及 
下 方 的 负责 做 纹理 过 滤 计 算 的 Texture Filtering Unit 
(ТЕО) 组 成 。TAU 和 TFU 在 物理 上 可 能 是 专用 的 数 
字 电 路 模块 ， 也 可 能 是 经 过 优化 的 通用 CPU 核 心 或 
者 DSP 核 心 ， 不 过 在 早期 时 一 般 多 使 用 专用 数字 逻辑 
来 实现 。 像 素 着 色 步 骤 相 比 栅 格 化 步骤 的 计算 要 复 
杂 和 慢 得 多 。 比 如 图 8-255 中 所 示 的 场景 下 ， 其 支持 
对 压缩 过 的 纹理 进行 解压 缩 处 理 ， 然 后 进入 采样 和 
过 滤 阶 段 。 图 中 所 示 的 ROP 单 元 在 物理 上 也 是 专用 
芯片 ， 其 内 部 会 形成 一 个 处 理 流水 线 来 处 理 对 应 的 
步骤 。 

PC 上 的 第 一 代 3D 图 形 加 速 卡 的 TMU 算 力 较 弱 ， 
无 法 增加 太 多 功能 进去 。 其 并 不 支持 Multi Texturing 
多 重 材质 映射 ， 诸 如 一 些 Light Map、 法 线 贴 图 等 ， 都 
无 法 做 到 。 那 就 意味 着 游戏 只 能 贴 一 层 基本 的 颜色 纹 
理 。 要 想 实现 较 好 的 效果 ， 游 戏 必 须 将 颜色 纹理 预先 
设计 好 ， 比 如 加 入 一 些 预定 义 的 假 光 照明 暗 效果 进去 
〈 这 个 预 处 理 过 程 被 称 为 烘焙 ，Baking) 。 

如 图 8-256 所 示 ， 到 了 20 世 纪 90 年 代 末 期 ，GPU 
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图 8-254 ”第 1 代 消 费 类 GPU 功能 示意 图 
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图 8-256 ”支持 多 重 纹理 映射 处 理 的 第 2 代 GPU 


进化 为 采用 AGP (Accelerated Graphic Port) 总 线 与 前 
端 总 线 相连 。AGP 是 PCI 总 线 的 进化 版 ， 其 优势 请 大 
家 自行 了 解 。 另 外 ， 这 一 代 GPU 内 部 的 TMU 开 始 支持 
多 重 纹理 映射 ， 比 如 支持 凹凸 贴图 等 ， 从 而 使 得 画面 
的 质量 更 高 了 。 

如 图 8-257 所 示 ，21 世 纪 初 ，GPU 迎 来 了 一 个 
重大 变革 ， 那 就 是 将 几何 计算 阶段 的 运算 任务 也 
加 进来 了 ， 对 应 的 硬件 单元 被 称 为 Transform and 
Lighting (T&L) ， 又 有 人 称 之 为 TCL (Transform, 


Clipping、Lighting) 。 这 样 ，Host 端 的 绘图 程序 就 
可 以 直接 发 送 3D 模 型 顶点 坐标 给 GPU (将 需要 绘制 
的 所 有 面 元 对 应 的 顶点 坐标 和 其 他 属性 放置 到 Vertex 
Buffer 中 ) ，GPU 自 动 取 项 点 坐标 和 属性 然后 完成 
计算 。 同 时 ， 这 一 代 GPU 中 对 像素 着 色 阶 段 也 提供 
了 更 多 可 选 的 模式 和 参数 的 组 合 ， 这 些 参数 会 被 放 
置 到 内 部 寄存 器 中 (图 中 的 Register Combiner) , 

从 而 直接 影响 TMU 着 色 单 元 ， 后 者 按照 对 应 参数 来 
计算 。 


_____ 552 大话 计 算 机 一 一 计算 机 系统 底层 架构 原理 极限 剖析 
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图 8-257 ”支持 硬件 T&L 单 元 的 第 3 代 GPU 


提示 > 


GPU 这 个 词 也 正 是 从 这 一 代 图 形 处 理 器 开始 ， 
被 Nvidia 正式 提出 。 因 为 只 有 这 一 代 的 图 形 处 理 器 
真 的 将 几乎 全 部 图 形 泻 染 工作 趣 载 到 内 部 全 程 实现 
了 。 而 在 这 之 前 ， 人 们 对 图 形 处 理 器 的 更 普遍 称呼 
是 Graphic Accelerator。 


如 图 8-258 所 示 为 硬件 T&L 电路 内 部 流程 示意 
图 。 可 以 看 到 其 执行 的 步骤 与 前 文中 介绍 过 的 3D 图 
形 泻 染 流水 线 中 的 步骤 完全 一 致 。 此 时 你 也 应 该 深刻 
理解 ， 不 管 是 用 软件 +CPU 来 执行 还 是 硬件 执行 ， 这 
每 一 步 的 步骤 就 在 那里 ， 少 不 了 。 我 们 在 第 5 章 的 图 
5-36 中 也 介绍 过 用 软件 实现 一 个 电子 年 历 ， 以 及 如 何 
用 纯 数字 罗 辑 去 实现 相同 的 功能 。 任 何 软件 都 可 以 被 
翻译 成 数字 电路 逻辑 ， 任 何 数字 逻辑 也 可 以 被 翻译 成 
程序 代码 用 通用 CPU 来 执行 。 


т» 


其 实 ，8.2.4 节 中 介绍 的 PGC 显 卡 ， 就 已 经 可 以 
在 硬件 中 完成 坐标 变换 了 。 可 以 查看 图 8-107， 其 中 
有 一 条 POLY3 命 令 ，count 为 1 字 节 ， 表 示 一 条 命令 最 
大 可 以 画 255 个 三 角形 。 只 不 过 ，PGC 其 实 是 使 用 其 
内 部 的 Intel 8088 CPU 来 完成 计算 的 ， 并 非 使 用 纯 数 
字 逻 辑 电 路 。POLY3 命 令 并 非 X86 机 器 指令 ， 所 以 需 
要 运行 在 Intel 8088 CPU 上 的 程序 来 解析 并 执行 。 


虽然 这 第 三 代 GPU 加 入 了 硬件 几何 和 光照 运算 
单元 ， 但 是 对 于 前 文中 介绍 的 那些 花哨 的 泻 染 特效 ， 
第 三 代 GPU 也 仅 能 做 有 限 的 支持 。 因 为 每 实现 一 种 特 
效 ， 就 要 对 内 部 的 硬件 电路 进行 相应 的 设计 ， 增 加 对 
应 的 逻辑 ， 这 个 设计 周期 非常 长 。 支 持 的 特效 越 多 ， 
电路 密度 就 越 大 ， 功 耗 越 高 ， 面 积 越 大 ， 成 本 也 就 越 
高 。 所 以 第 三 代 及 之 前 的 GPU， 被 称 为 固定 泻 染 管线 
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图 8-258 ”硬件 T&L 电路 内 部 流程 示意 图 


GPU， 你 无 法 向 其 中 加 入 新 功能 ， 最 多 可 以 通过 给 出 
不 同 的 参数 来 改变 其 演 染 模式 或 者 特效 模式 ， 但 无 法 
从 根本 上 实现 你 自己 想 要 自 定义 的 特效 。 比 如 前 文中 
提 到 过 的 ， 将 模型 的 顶点 位 置 按 照 正 弦 波 方式 变化 来 
模拟 飘动 的 旗帜 或 者 水 面 ， 这 个 特效 固定 管线 的 GPU 
并 不 支持 。GPU 要 支持 也 可 以 ， 将 T&L 硬件 单元 中 作 
为 一 个 功能 特效 ， 并 暴露 配置 接口 ， 比 如 用 某 个 寄存 
器 来 控制 使 能 或 禁止 这 个 功能 ， 以 及 正弦 波 振幅 值 设 
置 ， 抑 或 者 定义 一 条 新 的 绘图 命令 等 。 该 功能 起 个 花 
哨 的 名 字 比 如 叫 作 waving уегіех (波动 顶点 技术 ) o 
但 是 特效 太 多 了 ，GPU 不 可 能 都 支持 。 

GPU 厂商 也 深刻 认识 到 了 这 个 问题 ， 既 然 现 在 GPU 
已经 将 几乎 全 部 图 形 绘制 任务 印 载 到 了 GPU 内 部 ， 那么 
一 步 必 将 面临 的 就 是 增加 更 多 演 染 特效 了 。 然 而 ， 特 
效 有 太 多 种 ， 而 且 每 个 玩家 、 每 个 游戏 设计 者 、 每 个 美 
术 师 的 口味 都 不 同 ，GPU 厂 商 无 法 代表 所 有 人 的 审美 口 
味 而 私自 定义 某 种 特效 的 实现 程度 和 效果 。 


8.2.9.3 ”可 编程 泻 染 管线 3D 图 形 加 速 


于 是 ，GPU 厂 商 再 次 做 出 了 一 个 重大 变革 ， 那 
就 是 ， 从 由 纯 数 字 轴 辑 来 处 理 各 种 特效 ， 转 为 采用 软 
件 + 优 化 过 的 通用 CPU 核心 〈 而 且 是 大 量 CPU 核 心 并 
行 ) 的 方式 来 实现 。 软 件 可 以 由 GPU 厂商 来 编写 ， 并 
上 且 提 供 多 种 不 同 选择 ， 比 如 可 以 升级 GPU 的 微 码 来 
灌 入 不 同 风格 的 泻 当 代码， 但 是 这 样 做 也 不 够 灵活 ， 
GPU 厂商 的 负担 也 会 加 重 。 最 终 ，GPU 厂 商 选择 让 游 
戏 程序 员 自 己 来 编写 对 应 的 泻 染 程序 ， 并 将 这 些 程序 
下 发 给 GPU， 后 者 载 入 其 内 部 的 CPU 核 心 执行 、 处 理 
图 形 数据 。 这 种 GPU 被 称 为 可 编程 浑 染 管线 GPU 。 

然而 ， 程 序 员 并 没有 精力 去 学 习 市 场 上 众多 的 


GPU 的 指令 集 、 寄 存 器 以 及 编程 规则 。 于 是 ， 人 们 
发 明了 通用 的 汇编 语言 一 一 汇编 着 色 语言 (Assembly 
Shading Language) 。 学 习 这 种 汇编 语言 不 需要 了 解 


底层 GPU 的 指令 集 。 该 语言 中 定义 的 机 器 指令 、 寄 
存 器 都 是 假 的， 只 是 一 种 样式 ， 或 者 说 伪 代码 ， 其 虚 
拟 了 一 个 GPU 核心 和 一 堆 寄存 器 ， 虚 拟 了 一 堆 机 器 指 
令 ， 因 为 它 并 不 知道 底层 将 要 运行 这 些 代码 的 GPU 到 
底 用 的 是 什么 样 的 机 器 指令 和 寄存 器 。 所 以 ， 每 个 
GPU 厂商 需要 提供 各 自 的 编译 器 ， 将 这 种 通用 汇编 语 
言 转换 成 各 自 GPU 对 应 的 机 器 指令 汇编 语言 。 后 来 ， 
由 于 汇编 语言 依然 是 底层 语言 ， 其 直接 面向 寄存 器 
很 不 方便 ， 人 们 又 设计 出 了 用 于 GPU 程序 的 高 级 着 色 
语言 。 目 前 有 三 大 主流 的 高 级 着 色 语 言 : 微软 Direct3D 
体系 中 的 HLSL (High Level Shader Language) 、 
OpenGL 体 系 中 的 GLSL (OpenGL Shader ке. 
以 及 Nvidia 和 微软 联合 开发 的 CG (C for Graphic) 。 
们 各 自 也 都 有 各 自 的 汇编 级 语言 。 

梳理 一 下 ， 现 在 有 了 三 个 角色 : 高 级 着 色 语 言 、 
汇编 着 色 语 言 ， 以 及 GPU 机 器 指令 汇编 语言 。 高 级 着 
色 语 言 一 般 都 提供 能 够 将 其 翻译 成 汇编 着 色 语言 的 编 
译 器 ， 却 无 法 提供 将 高 级 语言 编译 成 GPU 机 器 指令 
的 编译 器 ， 后 者 要 靠 GPU 厂 商 来 完成 。 对 于 OpenGL 
体系 下 的 GLSL 语 言 ， 其 依赖 底层 GPU 厂商 提供 的 编 
译 器 ， 直 接 将 GLSL 高 级 语言 翻译 成 GPU 硬件 机 器 语 
言 。 而 对 于 Direct3D 体 系 下 的 HLSL 语 言 ， 其 自身 提供 
了 从 HLSL 语 言 到 汇编 着 色 语言 的 编译 器 ， 先 由 该 编 
译 器 编 记 着 色 语 言 ， 后 者 再 被 由 GPU 厂商 提供 
的 编译 器 编译 成 GPU 硬件 指令 语言 

如 图 8-259 所 示 :为 HLSL 高 级 着 色 语 言 到 HLSL 
АѕѕешЫ1уў #8 再 到 GPU (基于 AMD 某 代 
GPU) 机 器 指令 语言 的 实际 例子 。 虽 然 你 可 能 看 不 懂 
这 些 代码 到 底 在 干什么 ， 不 过 不 重要 ， 冬 瓜 哥 其 实 也 
看 不 懂 ， 我 们 可 以 猜 到 ， 左 侧 的 代码 是 在 对 纹理 坐标 
(从 图 中 TEXCOORD 可 以 判断 ) 做 某 种 变换 ， 比 如 
是 为 了 做 透视 修正 、 各 向 异性 采样 等 。 右 侧 的 代码 则 
是 在 做 与 Alpha 混 合 有 关 的 计算 。 


图 8-259 ”高 级 着 色 语言 到 着 色 汇 编 语言 再 到 GPU 机 器 语言 的 转换 过 程 
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着 色 语 言 也 是 不 断 发 展 的 ， 有 不 同 版 本 ， 其 包含 
的 指令 也 不 尽 相同 。 汇 编 着 色 语言 中 的 指令 与 GPU 指 
令 集中 的 指令 已 经 基本 接近 了 ， 有 些 连 名 称 甚至 都 是 
一 样 的 。 有 些 则 有 较 大 不 同 ， 比 如 一 条 着 色 汇编 指令 
可 能 会 被 翻译 成 多 条 GPU 机 器 指令 ， 或 者 相反 。 

这 种 由 程序 员 编 写 的 专门 运行 在 GPU 上 的 图 形 
泻 染 程序 代码 ， 被 称 为 Shader (FER) 。 如 果 某 个 
Shader 是 专门 用 于 处 理 几何 变换 运算 的 ， 比 如 坐标 变 
换 、 和 置换 贴图 、 曲 面 细 分 等 ， 那 么 称 为 Vertex Shader 
(顶点 着 色 器 ) ; 如果 Shader 是 用 于 处 理 像 素 着 色 
阶段 的 ， 比 如 各 种 纹理 映射 、 反 锯齿 处 理 、 高 级 光 
照 处 理 等 ， 那 么 就 称 为 Pixel Shader (或 者 Fragment 
Shader， 像 素 着 色 器 ) 。 对 应 的 高 级 编程 语言 ， 则 被 
称 为 高 级 着 色 语言 。 

我 们 会 在 8.2.10 节 中 介绍 ，Host 端 到 底 是 如 何 利 
用 诸如 Direct3D 以 及 OpenGL 等 3D 图 形 库 把 这 一 整套 
流程 控制 得 井井有条 的 ， 包 括 数 据 的 准备 、Shader 程 
序 的 准备 和 编译 、 绘 图 命令 的 下 发 等 。 

仔细 想 一 下 ， 这 与 在 Host 端 执行 泻 染 程序 有 什 
么 区 别 ? 其 实 本 质 上 毫 无 区 别 。Shader 这 个 词 我 们 
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前 文中 就 介绍 过 ， 如 果 没 有 GPU， 全 靠 Host 端 CPU 
来 泻 染 ， 它 原本 指 的 就 是 Host 端 的 顶点 着 色 器 /像素 
着 色 器 程序 模块 。 只 不 过 现在 这 两 个 角色 被 放置 到 
GPU 上 和 运行， 因为 后 者 比 Host 端 CPU 执行 的 速度 要 
快 得 多 。 

GPU 内 部 的 通用 CPU 与 Host 端 的 通用 CPU 有 什 
么 不 同 么 ? 的 确 不 同 。GPU 内 部 使 用 的 这 些 CPU， 
其 内 部 的 寄存 器 位 宽 、 指 令 集 、 执 行 流水 线 都 经 过 
了 特殊 的 简化 和 优化 ， 这 些 CPU 并 没有 像 Host 端 通 
用 CPU 那样 增加 大 量 的 诸如 分 支 预测 、 乱 序 执 行 、 
缓存 一 致 性 等 执行 优化 部 件 ， 因 为 它 要 计算 的 东西 
很 简单 ， 只 是 数据 量 有 些 大 ， 其 几乎 不 需要 做 逻辑 
判断 ， 更 不 需要 预测 。 这 样 它 就 可 以 被 做 得 比较 简 
单 ， 频 率 就 可 以 提升 到 更 高 ， 电 路 面积 也 就 更 小 ， 
就 可 以 放置 更 多 数量 的 核心 ， 形 成 更 大 规模 的 并 行 
性 。 而 Host 端 的 CPU 需 要 运行 各 种 过 去 的 、 现 在 的 
以 及 将 来 可 能 会 出 现 的 各 式 各 样 的 程序 ， 其 中 会 包 
含 大 量 的 逻辑 判断 控制 类 运算 ， 其 不 得 不 被 设计 为 
提升 这 类 场景 下 的 运算 性 能 。 
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|Scalar Multiply Emulating ИТ, Divide Ву 2 
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integer Predicate Counter Increment If Greater Than Or Equal 
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Floating-Point Predicate Set If Greater Than, 64-Bit 
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integer Predicate Set If Less Than Or Equal 
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Fioating-Point Set If Greater Than Or Equal, Directx 10 


图 8-265 AMD R700 系列 GPU 对 应 的 机 器 指令 集 一 览 (2) 


可 大 话 计算 机 一 一 计算 机 系统 底层 架构 原理 极限 剖析 


[Instruction [Description 
Signed Integer Set If Greater Than Or Equal ISAMPLE_C_G_L Sample Texture with Comparison, Gradient, and LOD 
Unsigned Integer Set If Greater Than Or Equal| |SAMPLE_C_G_LB Sample Texture with Comparison, Gradient, and LOD Bias| 
Fioating-Point Set If Greater Than SAMPLE С 212 сатре Texture with Comparison, Gradient, and LOD Zero| 
Fioating-Point Set If Greater Than, Directx 10 [SAMPLE CL Sample Texture with LOD 
Signed Integer Set If Greater Than PANRERE Sampie Texture with LOD Bias 
Unsigned Integer Set If Greater Than ISAMPLE_C_LZ Sample Texture with LOD Zero 
Floating-Point Set If Not Equal ISAMPLE_G Sample Texture with Gradient 
Floating-Point Set If Not Equal, DirectX 10 |ЅАМРІЕ С І. Sample Texture with Gradient апа LOD 
Integer Set If Not Equal SAMPLE_G_LB Sample Texture with Gradient and LOD Bias 
Scalar Sine [SAMPLE_G_LZ Sample Texture with Gradient and LOD Zero 
Scalar Square Root, IEEE Approximation [SAMPLE 1. Sample Texture with LOD 
Integer Subtract ISAMPLE_LB Sample Texture with LOD Bias 
Floating-Point Truncate ISAMPLE_LZ Sample Texture with LOD Zero 
Unsigned Integer To Floating-point ISET_CUBEMAP_INDEX|s,, Cubemap Index 
Br-wise XOR SET_GRADIENTS_H |ы Horizontal Gradients 

Vertex-Fetch Instructions SET-GRADIENTS_V |ѕе vertical Gradients 
|venex Fetch Memory Read Instructions 
Semantic Vertex Fetch ISCRATCH Read Scratch Buffer 
Texture-Fetch Instructions REDUCTION Read Reduction Buffer 
GET_COMP_TEX_LOD |Get computed Level of Detail For Pixels ISCATTER Read Scatter Buffer 
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|Get slopes Relative To Horizontal 
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|Get Slopes Relative To Vertical 


GET_NUMBER_OF_SAMPLES 
SET_TEXTURE_RESINFO 
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图 8-266 AMD R700 系 列 GPU 对 应 的 机 器 指令 集 一 览 (3) 


提示 > 


如 果 单 纯 考察 目前 主流 GPU 内 部 的 单个 核心 
性 能 ， 其 性 能 恶 怕 是 赶不上 目前 主流 通用 CPU 核 
心 的 。 


所 以 ， 从 第 四 代 GPU 开 始 ，GPU 的 架构 全 面 转向 
使 用 大 量 的 、 专 门 优 化 过 的 、 高 效率 的 微型 CPU 核心 
+ 由 游戏 程序 员 编写 代码 的 方式 来 泻 染 图 形 。 图 8-267 
所 示 为 某 GPU 内 使 用 的 Vertex Processor 以 及 Pixel/ 
Fragment Processor 内 部 架构 图 。 其 内 部 基本 上 由 若干 
个 向 量 /标量 (向 量 运 算 原 理 见 第 4 章 图 4-68〉 运 算 核 
心 以 及 一 些 简单 的 分 支 处 理 部 件 和 一 些 固定 运算 功能 
的 部 件 组 成 。 当 然 ， 还 有 比较 关键 的 纹理 读 取 和 处 理 
单元 ， 该 单元 其 实 就 是 原来 的 TMU 单 元 ， 其 作为 一 
个 专用 硬件 ， 不 可 编程 ， 专 门 负责 读 取 并 处 理 纹理 ， 
因为 纹理 比较 大 ， 放 置 在 慢 速 SDRAM 中 ， 虽 然 其 配 
备 了 纹理 缓存 ， 但 是 读 取 依然 相对 慢 。 所 以 该 单元 相 
当 于 一 个 纹理 IO 控制 器 ， 核 心 执 行 Shader 程 序 ， 向 该 


单元 发 起 纹理 读 取 请 求 ， 后 台 异 步 执行 ， 当 纹理 读 取 
正在 进行 时 ，Shader 程 序 可 以 继续 做 其 他 事情 。 该 单 
元 看 似 只 是 简单 读 取 纹理 ， 其 实 为 了 读 取 纹 理 ， 它 需 
要 事先 做 不 少 工作 ， 包 括 选 择 Mipmap 级 别 、 计 算 各 
向 异性 等 ， 最 终 才 能 知道 自己 要 读 取 的 是 哪个 纹 素 。 
读 取 回 纹理 之 后 还 需要 对 纹理 进行 过 滤 并 最 终 确认 颜 
色 ， 然 后 把 对 应 颜色 移交 给 Pixel Shader 程 序 继续 处 
理 ， 所 以 TMU 内 部 有 相当 的 运算 量 。 
纹理 填充 是 个 累 活 。 纹 理 bitmap 往 往 很 大 ， 存 
在 SDRAM 慢 加 存储 器 中 ， 所 以 要 增加 一 层 Texture 
Cache。 但 是 由 于 读 取 纹 素 时 并 不 是 去 读 取 bitmap 中 
的 一 横行 ， 而 是 要 读 取 面 元 大 小 的 一 块 ， 所 以 如 果 
不 加 特殊 处 理 ， 缓存 命中 率 将 会 很 低 ， 会 导致 缓存 
行 频繁 换 出 。 为 了 提高 命中 率 ， 在 将 纹理 载 入 缓存 
时 一 般 是 以 Tile ( 一 小 块 的 意思 ) 为 单位 载 入 ， 这 
样 ， 程 序 在 下 一 次 读 取 时 会 有 较 大 概率 命中 在 同一 
个 Tile 上 ， 如 图 8-268 所 示 。 纹 理 缓存 的 这 种 特殊 组 


To Setup 


Бос орар 951 


Output Shaded Fragments 


图 8-267 ” 某 GPU 内 部 的 项 点 和 像素 处 理 器 内 部 架构 示意 图 


织 方式 ,特别 适用 于 一 些 特殊 数据 的 处 理 ， 有 人 直 
接 将 待 计算 的 数据 存 入 纹理 中 ， 然 后 利用 纹理 处 理 
单元 来 计算 这 些 数据 ， 实 现 了 相 比 传统 CPU 计算 而 
言 大 幅 提 升 的 缓存 命中 率 。GPU 不 仅 可 以 用 来 计算 
图 形 ， 也 可 以 做 通用 计算 。 


Cache-Sized 
Superblock Block 


图 8-268 ”纹理 缓存 的 数据 排 布 方式 


如 图 8-269 所 示 ，2001 年 出 现 的 第 4 代 GPU， 首 先 
将 顶点 几何 处 理 阶段 迁移 到 了 通用 计算 核心 上 ， 提 供 
了 可 编程 的 Vertex Shader 处 理 器 核心 ， 同 时 依然 保留 
硬件 T&L。 程 序 可 以 选择 使 用 之 前 固定 的 、 硬 件 定义 


CPU GPU 
Application Geometry Stage 
Stage 

Vertex Shader 


(no flow control) 


кщ) 


System 
Memory Video Memory 


Rasterizer 
(with Z-Cull) 


的 管线 ， 也 可 以 选择 使 用 下 发 自己 编写 好 的 Shader 代 
码 给 软件 定义 的 Vertex Shader 执 行 单元 来 执行 。 像 素 
着 色 部 分 依然 保留 之 前 的 纯 数 字 罗 辑 实 现 。 

不 过 ， 第 4 代 GPU 中 的 Vertex Shader 程 序 并 不 支持 
分 支 语句 ， 比 如 if else, while, loop, саште ЊЕ 
辑 ， 也 就 是 图 8-269 中 所 示 的 No Flow Control。 

同时 支持 可 编程 Vertex Shader 和 Pixel Shader 的 
GPU 出 现在 2002 年 。 如 图 8-270 所 示 ， 此 时 Vertex 
Shader 程 序 支 持 静 态 或 者 动态 的 分 支 ， 而 Pixel Shader 
只 支持 静态 分 支 。 

使 用 可 编程 的 GPU， 游 戏 程序 可 以 非常 灵活 地 
实现 各 种 特效 ， 程 序 员 可 以 自 定义 各 种 特效 的 力度 。 
之 前 的 固定 管线 GPU 可 能 为 了 均衡 考虑 ， 对 某 个 特 
效 的 力度 支持 是 有 上 限 的 ， 而 采用 可 编程 方式 之 后 ， 
上 限 完全 由 程序 员 来 决定 。 比 如 ， 如 果 游 戏 场景 非常 
简单 ， 那 么 程序 员 可 以 选择 将 其 他 特效 力度 提升 到 更 
高 ， 如 果 遇 到 复杂 场景 ， 那 么 可 以 选择 动态 降低 某 些 
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图 8-269 ”支持 可 编程 Vertex Shader 的 可 编程 渲染 管线 的 第 4 代 GPU 


到 大 话 计算 机 一 一 计算 机 系统 底层 架构 原理 极限 剖析 
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图 8-270 ”同时 支持 项 点 和 像素 着 色 器 的 第 5 代 GPU 


特效 的 力度 ， 而 这 种 灵活 性 是 固定 管线 无 法 做 到 的 。 
人 们 可 以 发 明 全 新 的 特效 和 算法 ， 可 以 完全 脱离 GPU 
厂商 自行 实现 。 


可 以 看 到 ， 栅 格 化 器 和 ROP 处 理 器 部 分 ， 并 没 
有 被 设计 成 可 编程 的 ， 目 前 最 新 的 GPU 在 这 两 个 
步骤 上 依然 是 使 用 固定 硬件 来 处 理 的 。 因 为 这 两 
个 步骤 中 几乎 没有 什么 值得 定制 化 的 东西 ， 它 们 
处 理 的 方式 本 身 就 是 很 固定 的 ， 比 如 根据 顶点 算 
出 三 角形 跨越 了 哪些 像素 点 ， 没 有 程序 员 想 去 把 
这 块 算法 也 改 成 自 定义 的 。 或 者 说 ， 在 顶点 和 像 


素 着 色 器 的 可 编程 潜力 被 挖 气 殉 尽 之 前 ， 不 会 有 
人 去 琢磨 把 栖 格 化 和 ROP 也 搞 成 可 编程 的 。 ) 


要 知道 ，GPU 内 部 的 处 理 核心 一 开始 是 非常 简 
化 的 ， 但 是 随 着 程序 员 开发 出 越 来 越 复杂 的 Shader 程 
序 ， 实 现 更 高 级 的 特效 ， 处 理 核心 也 就 得 跟着 加 入 更 
多 复杂 的 功能 、 更 多 的 寄存 器 、 更 多 的 指令 集 、 更 
先进 的 编程 方式 ， 才 能 满足 日 益 增长 的 Shader 复 杂 度 
和 灵活 度 需求 。 于 是 也 就 有 了 一 代 一 代 更 迭 的 Shader 
Model。 如 图 8-271 所 示 为 微软 Direct3D 体 系 的 Shader 
Model 功 能 对 比 。 目 前 最 新 的 Shader 版 本 已 经 到 了 6.0。 
至 于 其 中 的 各 项 功能 含义 ， 大 家 就 自行 了 解 学 习 吧 。 
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图 8-271 ”微软 Direct3D 体 系 的 Shader Model 功 能 对 比 
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续 图 8-271 


2004 年 出 现 了 支持 Shader Model 3.0 的 GPU， 其 支 
持 64 位 颜色 ， 以 及 总 线 接口 从 AGP 过 渡 到 PCIE。 如 图 
8-272 所 示 ， 两 个 Shader 都 支持 动态 和 静态 分 支 。 

这 一 代 GPU 的 典型 代表 是 Nvidia GeForce 6800 
系列 显卡 使 用 的 GPU。 如 图 8-273 所 示 为 其 架构 示意 
图 。 其 采用 了 6 个 顶点 处 理 器 并 行 运行 顶点 Shader 程 序 
对 顶点 进行 基本 处 理 〈 坐 标 变换 等 ) 和 高 级 处 理 〈 变 


GPU 
Geometry Stage 
Vertex Shader 


CPU 
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Stage 


Rasterizer 


(static and dynamic (with 7-Сий) (static and dynamic 
flow control) flow control) 
Texture 


形 计 算 等 ) ， 在 经 过 了 剔除 、 剪 裁 和 三 角形 装配 以 及 
栅 格 化 阶段 处 理 〈 固 定 功 能 数字 逻辑 处 理 ， 不 可 编 
程 ) 之 后 ， 进 入 16 个 像素 处 理 器 并 行 运行 像素 Shader 
程序 处 理 每 一 个 像素 。 然 后 进入 16 个 ROP 处 理 器 ( 固 
定 功能 数字 逮 辑 ) 进行 最 终 处 理 ， 最 后 图 像 会 被 输出 
到 Frame Buffer。 
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图 8-272 ”采用 PCIE 总 线 、 支 持 64 位 颜色 的 可 编程 泻 染 管线 的 第 6 代 GPU 
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8.2.9.4 Unified 可 编程 3D 图 形 加 速 


在 Shader Model 1.0 一 3.0 时 代 ，GPU 内 部 为 顶点 
着 色 器 和 像素 着 色 器 程序 分 别提 供 了 各 自 不 同 架 构 的 
处 理 核心 ， 其 指令 集 也 有 所 不 同 ， 维 护 和 开发 起 来 就 
不 够 方便 。 另 外 ， 如 果菜 个 程序 在 顶点 阶段 计算 量 不 
大 ， 而 像素 着 色 阶 段 计算 量 很 大 ， 那 么 会 导致 顶点 着 
色 器 处 理 核 心 的 资源 无 法 得 到 充分 利用 ， 会 浪费 资 
源 。 于 是 ，GPU 厂 商 与 微软 联合 做 了 改进 ，GPU 厂 商 
将 处 理 核心 统一 成 只 有 一 种 ， 即 既 可 以 执行 顶点 着 色 
程序 又 可 以 执行 像素 着 色 程序 ，GPU 机 器 指令 集 也 被 
统一 成 一 种 。 与 之 对 应 ， 微 软 也 发 布 了 Shader Model 
4.0 版 本 规范 ， 定 义 对 应 的 高 级 着 色 语 言 、 着 色 汇 编 
语言 指令 集 以 及 其 他 相关 规范 。 一 直到 今天 的 SM 
6.0， 路 数 相同 。 统 一 之 后 的 Shader 模 型 被 称 为 Unifed 
Shader， 但 是 顶点 着 色 以 及 像素 着 色 这 两 个 步骤 依然 
是 独立 存在 的 ， 只 是 它们 底层 的 指令 集 以 及 所 运行 在 
的 处 理 器 核心 都 是 一 样 的 了 。 

从 此 ，GPU 的 发 展 就 步 入 了 高 速 轨道 ， 路 数 基本 
不 再 变化 了 ， 也 就 是 全 面 转向 为 Shader 程 序 提供 更 优 
化 的 通用 处 理 核心 ， 包 括 寄存 器 和 指令 集 等 方面 ， 以 
及 疯狂 开始 集成 入 大 量 的 ALU 运 算 单 元 。 到 目前 为 
止 ， 消 费 级 高 端 显卡 上 的 GPU 已 经 集成 4096 个 ALU 
运算 单元 。 也 正 因 如 此 ， 人 们 才能 以 4 K 的 分 辩 率 、 
最 高 特效 畅 玩 3D 游 戏 大 作 。 本 质 上 讲 ，GPU 越 来 越 
演变 成 一 个 通用 计算 平台 ， 程 序 员 可 以 用 GPU 来 计算 
图 形 ， 也 可 以 计算 其 他 任何 能 够 并 行 化 处 理 的 程序 。 
只 不 过 GPU 内 部 对 图 形 演 染 流程 是 有 特定 优化 的 ， 比 
如 纹理 TMU 单 元 、Texture Cache、 向 量 运算 形式 等 ， 
在 指令 集 上 也 有 一 些 专 门 为 图 形 计 算 设置 的 指令 。 
正 因 如 此 ，Nvidia 后 来 将 其 GPU 内 部 架构 称 为 CUDA 
(Compute Unified Device Architecture) ， 对 应 的 处 理 
核心 称 为 CUDA Core。 


核心 泛 指 由 ALU、 取 指令 、 译 码 、 执 行 流水 
线 控制 等 所 有 部 件 组 成 的 一 套 完整 电路 模块 。 但 是 
GPU 厂商 习惯 将 每 个 ALU 运 算 单元 称 为 一 个 核心 。 
实际 上 ， 在 GPU 内 部 ， 多 个 ALU 是 共享 同一 套 控 制 
模块 的 。 


如 图 8-274 所 示 为 Nvidia GF100〈 代 号 Fermi) GPU 
核心 架构 图 ， 其 中 包含 了 1920 个 可 编程 的 Unified 统 一 
Shader 执 行 ALU， 以 及 大 量 的 固定 功能 处 理 单元 。 

图 8-275 所 示 为 GPC 局 部 放大 图 。SM 为 GPU 内 
部 的 亚 单元 ， 其 总 体 上 而 言 就 相当 于 一 个 多 ALU 的 
CPU 核 心 ， 只 不 过 Nvidia 将 其 内 部 每 个 ALU 称 为 一 个 
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Core。SM 内 部 的 组 织 与 CPU 类 似 ， 拥 有 指令 缓存 、 
一 个 较 大 的 Register File 寄 存 器 堆 ( 相 当 于 数据 缓 
存 ) 、 若 干 个 ALU (CUDA Core， 每 个 Core 各 包含 
一 个 浮 点 运算 单元 和 整数 运算 单元 ) 单元 、 若 干 个 
Load/Stor 单 元 、 若 干 个 SFU (用 于 log/exp、sin/cos、 
rcp/rsqrt 等 特殊 计算 的 专用 运算 器 ) 、64KB 的 L1 指 令 
数据 共享 缓存 、4 个 纹理 处 理 单元 (TMU, FATE 
周期 可 取 4 个 样 点 ) 、 纹 理 缓存 ， 以 及 用 于 线程 调度 
的 Warp Scheduler 和 分 派 单 元 〈 这 些 流 水 线 执行 管理 
方面 的 概念 我 们 在 本 书 第 4 章 中 已 经 详细 介绍 过 ) 。 
当 需 要 读 取 纹 理 时 ， 由 于 纹理 读 取 较 慢 〈 而 且 还 要 进 
行 过 滤 计 算 ， 都 在 TMU 内 完成 ) ，Warp Scheduler 可 
以 切换 到 其 他 线程 来 运行 ， 从 而 屏蔽 纹理 读 取 的 时 
延 。 每 个 SM 还 配备 一 个 PolyMorph〈 多 边 形变 形 ) 
单元 ， 其 实 就 是 几何 运算 单元 。PolyMorph 单 元 不 可 
编程 ， 负 责 从 顶点 缓冲 区 取 回 项 点 、 对 顶点 进行 基本 
坐标 变换 、 对 顶点 进行 三 角形 装配 、 曲 面 细 分 中 的 
Tessellater 步 骤 。 最 后 ， 所 有 部 件 之 间 采 用 内 部 的 互联 
网 络 相连 (Crossbar、Ring 或 是 Mesh) 。 

如 图 8-276 所 示 为 AMD 于 2017 年 推出 的 Radeon 
Vega GPU 架构 示意 图 ， 其 最 大 支持 4096 个 运算 核心 。 
如 图 8-277 所 示 为 一 些 GPU 芯片 的 Die 图 。 


8.2.9.5 深入 AMD R600 GPU 内 部 执行 流程 


在 介绍 完 GPU 架 构 的 发 展 史 之 后 ， 我 们 深入 地 
走 进 一 款 GPU 内 部 ， 来 探索 其 内 部 具体 的 泻 染 流程 杠 
架 。 我 们 以 AMD 的 R600 系 列 GPU 为 蓝本 。 

是 的 ，GPU 可 以 将 顶点 和 贴图 处 理 成 最 终 的 图 
形 。 但 是 ，GPU 到 底 是 怎么 得 到 数据 的 ， 又 怎么 知 
道 如 何 泻 染 对 应 的 数据 ? 巧 妇 难为 无 米 之 炊 ， 我 们 的 
探索 之 路 就 以 这 个 问题 开始 。 显 然 ， 在 Host 端 的 主 存 
中 需要 有 个 地 方 来 存放 数据 核 命令 ，GPU 到 这 里 来 自 
取 、 执 行 ， 这 个 地 方 就 是 Ring Buffer， 或 者 Circular 
Queue, Send Queue。 这 个 过 程 与 第 7 章 介 绍 的 IO 过 
程 是 一 样 的 。 当 前 的 GPU 都 是 通过 PCIE 接 口 和 协议 
连接 到 CPU 上 的 ， 其 与 Host 端 的 交互 方式 与 网 卡 、 
SAS 卡 、 声 卡 等 没有 本 质 区 别 ， 只 是 交互 的 数据 和 命 
令 有 区 别 。Host 端 只 提供 命令 还 不 行 ， 还 得 有 原材料 
和 菜谱 ， 所 以 Host 端 还 要 将 所 需 的 数据 准备 在 Host 端 
对 应 的 缓冲 区 里 ， 包 括 Vertex、Texture、 待 运行 的 着 
色 器 程序 (菜谱 以 及 其 他 一 些 控制 信息 ， 并 将 这 
些 信息 都 记录 到 Ring Buffer 中 的 命令 描述 Descriptor 
中 。 有 时 这 些 Descriptor 又 被 称 为 Work Queue Element 
CWQE) ， 其 叫 什么 真 的 不 重要 。 
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拿 到 的 命令 ， 这 个 器 件 被 称 为 Command Processor 
(CP) 。 这 个 器 件 或 是 一 个 通用 CPU 核心 运行 某 种 固 
件 ， 或 是 纯 数 字 罗 辑 译 码 器 ， 不 过 当 你 知道 了 所 有 互 
能 的 做 法 之 后 ， 它 具体 是 怎么 做 的 其 实 也 不 重要 。 重 
要 的 是 ， 解 析 命 令 之 后 如 何 执行 。AMD R600/700 的 
CP 的 确 是 运行 微 码 的 ， 也 必须 运行 微 码 ， 因 为 只 有 
这 样 才 足 够 灵活 。 其 他 GPU 厂 商 对 这 个 角色 可 能 有 不 
同 叫 法 ， 比 如 Intel 的 集成 GPU 称 为 Command Streamer 
(CS) 。GPU 内 部 可 以 并 行 存在 多 个 CP， 驱 动 程序 
初始 化 多 个 Ring Buffer Queue， 每 个 CP 负 责 从 各 自 的 
Queue 中 提取 任务 执行 ， 以 及 负责 在 执行 任务 过 程 中 
访问 Host 主 存 以 及 显存 中 准备 的 各 种 资源 ， 此 时 需要 
考虑 同步 问题 ， 因 为 多 个 CP 之 间 是 没有 沟通 的 ， 如 果 
将 同一 份 资源 让 多 个 CP 执 行 ， 就 无 法 保证 顺序 。 

我 们 先 来 看 一 下 图 8-278。 根 据 目前 所 掌握 的 
知识 ， 你 应 该 可 以 完全 理解 图 中 大 部 分 角色 存在 
的 目的 。 有 些 名 称 可 能 比较 有 迷惑 性 ， 比 如 Scan 
Converter， 如 果 你 知道 Rasterization 的 具体 过 程 ( 在 
一 个 面 元 中 按照 Scanline 计 算 跨 越 的 像素 ) ， 便 会 知 
道 其 实 它 就 是 Rasterizer。VGT 就 是 负责 顶点 几何 运 
算 的 ， 如 果 Host 端 没有 使 用 顶点 着 色 程 序 ， 那 就 直接 
走 到 PA 这 一 步 ，PA 就 是 负责 根据 顶点 Index 识 别 哪些 
质点 组 成 了 三 角形 的 ， 泻 染 流程 完成 栅 格 化 之 后 便 进 
入 Pixel Shader 继 续 处 理 。 如 果 Host 端 使 用 了 顶点 着 色 
器 ， 则 VGT 将 顶点 信息 输送 到 Vertex Shader 处 理 ， 处 
理 完 输送 到 PA， 然 后 继续 走 到 像素 着 色 器 。SPI 的 作 
是 调度 器 ， 每 次 调度 64 个 顶点 /像素 ， 这 64 个 项 点/ 


像素 被 称 为 一 个 wavefront 〈 波 前 ) ，Nvidia 对 其 则 有 
另外 的 称呼 ， 即 Warp СВЕ) ， 每 个 Warp 中 处 理 32 
个 顶点 /像素 。SX 表 示 Shader Export 的 意思 ， 其 实 就 
是 FIFO Buffer 用 于 存放 处 理 完 的 结果 的 。 演 染 流程 最 
后 进入 ROP 的 地 盘 执 行 各 种 测试 ， 然 后 输出 到 颜色 组 
冲 ， 通 过 Frame Buffer 切 换 播 放 到 显示 器 。 
Shader 程 序 在 运行 的 时 候 需 要 访问 Register File, 
AMD 将 Register File 称 为 General Purpose Registers 
(СРВ) 。GPR 在 Shader 运 行 之 前 会 被 SPI 动 态 分 配 ， 
同时 SPI 还 会 向 GPR 中 预先 载 入 该 Shader 运 行 所 需 的 控 
制 信息 ， 比 如 顶点 缓存 的 地 址 等 ， 然 后 ，SPI 会 直接 
让 Shader 处 理 核心 跳 转 到 Shader 程 序 的 第 一 行 代码 上 
运行 。 其 实 这 整个 过 程 就 相当 于 函数 调用 一 样 ， 调 用 
了 Shader 这 个 大 函数 。Shader 会 根据 GPR 中 的 顶点 组 
存 地 址 ， 取 出 顶点 进行 对 应 的 处 理 ， 然 后 将 结果 写 入 
到 SX 中 。 
Pixel 着 色 器 的 运行 也 是 同样 的 过 程 ， 也 需要 被 
SPI 统 一 调度 。Pixel 着 色 器 运行 过 程 中 会 牵扯 到 纹理 
贴图 处 理 ， 此 时 可 以 利用 系统 中 的 专用 TMU 来 完成 纹 
理 映射 计算 ， 或 者 如 果 没 有 TMU 则 直接 用 Shader 处 理 
核心 来 访问 纹理 缓存 并 完成 各 种 过 滤 计算 ， 不 过 一 般 
GPU 内 部 都 有 专门 的 硬件 TMU。Pixel 着 色 器 运行 的 
时 候 可 能 会 保存 一 些 结果 到 一 个 叫 作 Shared Memory 
Buffer 的 特殊 缓冲 区 ， 也 就 是 图 中 的 SMX， 其 作用 是 
在 Shader 之 间 快 速 共享 数据 。 
SPI 每 次 调度 一 个 wavefront， 也 就 是 64 个 顶点 / 
像素 到 顶点 /像素 实 是 开 了 
64 个 线程 ， 每 个 Ен 
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图 8-277 一 些 GPU 芯 片 的 Die 图 
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图 8-278 AMD R600/700 内 部 运作 流程 示意 图 
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不 同 的 顶点 /像素 ， 代 码 根据 自己 的 线程 ID 来 处 理 不 
同 的 数据 。 这 种 处 理 方式 被 Nvidia 称 为 SIMT (Single 
Instruction Multi Thread) 。 其 与 SIMD 〈 本 书 第 4 章 结 
尾 ) 的 区 别 在 于 ，SIMD 泛 指 单个 线程 中 的 某 个 指令 
运行 时 同时 处 理 了 多 份 数据 ， 也 就 是 用 向 量 方式 来 处 
理 ， 而 SIMT 则 是 指 多 个 处 理 核心 上 的 多 个 线程 运行 
完全 相同 的 代码 ， 这 些 线程 中 同一 个 位 置 上 的 相同 指 
令 各 自 处 理 不 同 的 数据 ， 而 这 条 指令 本 身 可 能 同时 也 
是 向 量 指令 ， 那 么 这 就 相当 于 用 多 个 线程 同时 用 向 量 
运算 的 方式 处 理 多 份 不 同 数据 ， 在 SIMD 基 础 上 吞吐 
量 再 次 提升 对 应 线程 数量 的 倍数 。 

有 时 候 ，Shader 程 序 中 可 能 存在 条 件 分 支 操作 。 
如 果 没 有 分 支 操作 ， 所 有 ALU 上 流 过 的 代码 逻辑 完 
全 相同 ， 执 行 的 指令 都 是 相同 的 ， 只 是 处 理 的 数据 不 
同 。 一 旦 出 现 分 支 ， 如 图 8-279 所 示 ， 不 同 的 像素 /项 
点 值 会 走 入 不 同 的 处 理 罗 辑 〈 图 中 黄色 和 浅 蓝 色 ) 处 
理 ， 那 么 ， 就 必须 一 个 分 支 一 个 分 支 轮流 处 理 。 如 图 
所 示 ，ALU1/2/4 走 入 了 黄色 分 支 ， 运 行 黄色 区 域 代 
码 ， 此 时 其 他 ALU 必 须 阻 塞 ， 不 执行 任何 指令 。 等 待 
这 三 个 ALU 执 行 完 后 ， 其 他 ALU 开 始 执行 浅 蓝 色 区 域 
代码 ， 而 ALU1/2/4 阻 塞 等 待 ， 当 浅 蓝 色 区 域 代码 执行 
完 后 ， 这 个 分 支 结束 了 ， 大 家 再 同步 开始 运行 后 续 的 
非 分 支 代码 。 可 见 ，SIMT 模 式 下 ， 如 果 所 有 的 ALU 
都 进入 同一 个 分 支 ， 那 么 性 能 不 会 有 影响 ， 就 怕 一 部 
分 ALU 进 入 一 个 分 支 ， 其 他 ALU 进 入 另 一 个 分 支 ， 此 
时 这 两 批 ALU 之 间 就 是 串 行 关系 。 
m — 0063000900650 


<unconditional 
shader code> 


if (x > 0) ( 


| 


x = 0; 
refl = Ka; 


| 


图 8-279 分支 操 作 将 极 大 降低 SIMT 的 性 能 


Shader 在 被 调度 运行 之 前 ，SPI 必 须 将 控制 信息 比 
如 顶点 索引 等 载 入 GPR 寄存 器 堆 。GPR 物 理 上 其 实 是 
SRAM， 并 不 是 触发 器 ， 后 者 占用 晶体 管 太 过 庞大 ， 
这 不 划算 。 顶 点 着 色 器 运行 时 ， 根 据 顶 点 索引 ， 要 么 
自己 亲自 执行 Vertex Fetch 类 的 指令 取 回 项 点 坐标 和 其 
他 属性 到 GPR， 要 么 可 以 执行 call 指 令 调用 一 个 专门 
执行 Vertex Fetch 步 骤 的 函数 ， 从 而 由 后 者 帮忙 取 回 
顶点 数据 到 GPR。Vertex 着 色 器 开始 处 理 取 回 的 顶点 
〈 比 如 执行 坐标 转换 步 又， 期间 可 以 使 用 置换 贴图 来 
改变 坐标 位 置 ， 或 者 执行 一 些 傅 里 叶 变 换 、Sin 函 数 
之 类 形成 波浪 效果 等 ， 这 就 完全 取决 于 Shader 怎 么 写 
的 了 ) ， 然 后 到 SX FIFO 中 分 配 一 个 位 置 ( 这 个 位 置 


被 称 为 Position Buffer， 因 为 其 是 用 来 存储 运算 完 的 顶 
点 坐标 位 置 的 ) ， 然 后 将 处 理 完 后 的 顶点 坐标 写 入 到 
SX 中 对 应 的 Position Buffer。 

Shader 程 序 执行 结束 之 后 ，SPI 释 放 之 前 为 该 
wavefront 分 配 的 GPR 空间 ， 然 后 调度 下 一 轮 wavefront 
继续 执行 ， 这 也 是 为 何 AMD 称 之 为 wavefront 的 原 
因 ， 真 的 是 一 波 一 波 地 来 袭 和 执行 。 

经 由 顶点 着 色 器 处 理 完毕 的 数据 ， 通 过 SX 传递 给 
了 PA， 在 这 里 做 图 元 装配 ， 把 三 角形 先 确定 下 来 ， 然 
后 输送 给 栅 格 化 器 确定 最 终 这 一 批 顶 点 组 成 的 面 元 所 
跨越 的 所 有 像素 坐标 。PA 和 SC 都 是 纯 数字 逻辑 硬件 
完成 计算 ， 所 以 速度 也 是 飞快 的 。 然 后 ， 像 素 坐标 又 
被 输送 到 SPI 调 度 ，SPI 用 老 套路 ， 再 生成 64 个 线程 的 
wavefront， 分 配 GPR， 然 后 在 对 应 数量 的 Shader 处 理 
核心 上 运行 这 64 个 线程 ， 并 按照 老 套路 结束 运行 并 释 
放 资 源 。 

流程 图 中 还 有 一 个 Constant Buffers 角 色 ， 其 又 被 
称 为 Constant Cache。 由 于 Shader 程 序 执行 时 以 访问 
GPR 为 主 〈Shader 被 编译 的 时 候 就 尽量 把 数据 放 到 寄 
存 器 中 ，GPU 内 处 理 核心 的 通用 寄存 器 容量 相 比 一 般 
的 通用 CPU 中 寄存 器 容量 要 大 得 多 ) ， 但 是 由 于 GPR 
的 容量 毕竟 还 是 有 限 的 ， 一 些 数 据 ， 尤 其 是 常量 数 
据 ， 在 程序 运行 时 也 经 常会 访问 ， 比 如 一 些 固定 参 
数 、 地 址 指针 等 ， 对 于 这 些 数据 ， 需 要 再 开辟 一 块 组 
冲 区 来 存放 。GPU 内 部 使 用 Constant Memory 来 存放 上 
述 这 些 数据 ，Constant Memory 其 实 就 是 GPU 在 显存 
SDRAM 中 开辟 的 某 块 空间 ， 但 是 访问 SDRAM 很 慢 ， 
所 以 GPU 在 其 内 部 又 加 了 一 层 物理 上 用 SRAM 并 且 离 
核心 距离 较 近 的 Constant Cache。 其 实 GPU 芯 片 内 部 会 
将 SRAM 集 中 放置 到 一 起 ， 然 后 在 逻辑 上 切 分 SRAM 
的 空间 作为 不 同 角色 的 Cache。 

我 们 再 回 到 源头 上 ， 看 一 下 Command Processor 到 
底 接收 的 是 什么 样 的 命令 ， 命 令 里 面 都 有 些 什 么 内 容 
和 格式 。 如 图 8-280 所 示 为 该 GPU 接收 的 命令 中 的 一 
类 ， 其 被 称 为 Type-0 Packet。Type0 类 命令 的 作用 是 写 
对 应 的 值 到 GPU 上 对 应 的 寄存 器 ， 结 合 图 中 各 字段 ， 
意思 就 是 : 写 从 Base_Index 开 始 的 数量 为 Count 个 连续 
的 寄存 器 值 ， 这 些 值 是 Reg_Data_1 一 n。 至 于 Host 端 
程序 一般 是 GPU 的 驱动 程序 ) 为 什么 要 写 寄存 器 ， 
写 哪些 寄存 器 ， 就 完全 取决 于 程序 的 逻辑 了 。 


其 实 Host 端 程序 完全 可 以 直接 写 入 GPU 对 应 寄 
存 器 所 在 的 地 址 来 更 新 或 者 读 取 寄存 器 ， 但 是 这 样 
会 比较 低 效 。 把 要 写 入 的 值 和 地 址 封装 到 命令 里 ， 
让 GPU 自行 更 新 ， 效 率 更 高 。 


Type-0 packet 


—a _ ШИИ. HEEE 1444144444: T 

| REG DATA 1 N 
Es | REG АТА 2 

| 

| 


REG_DATA_n 


第 8 章 ре — НИЛА ЕО 


Description 
The ВАЗЕ INDEXTI3:0] correspond to byte address bits [17:2], 
The BASE INDEX is к DWORD Memory- address. 
This field width. 10 64K DWORD» (256K Bytes). 
Count of DWORD: п the information body. Їв value should be N-l 1 there” 
are N DWORDs in the information body. 


Packet identifier 1 should be zero. 


levant register. Note the suffix x 
ging from 1 to N. 


图 8-280 ”Type0 类 写 寄存 器 命令 


该 GPU 内 部 的 一 些 关 键 寄存 器 及 其 含义 如 图 
8-281 所 示 ， 你 一 定 会 表示 看 不 懂 ， 没 关系 ， 冬 瓜 哥 
也 看 不 懂 。 我 们 只 知道 有 一 堆 的 寄存 器 用 来 设置 各 种 
运行 模式 、 参 数 就 可 以 了 。 不 过 还 是 看 一 下 图 中 右 
下 角 的 Vertex Shader Info Setup 类 寄存 器 。 其 中 的 SQ_ 
PGM_START_VS 寄 存 器 ， 存 储 的 是 Vertex Shader 程 序 
代码 位 于 显存 中 的 位 置 。 这 个 总 该 懂 吧 。 要 让 GPU 执 
行 Shader 程 序 ， 程 序 的 入 口 地 址 总 得 知道 吧 。 这 个 寄 
存 器 保存 的 就 是 。 同 理 ，Pixel Shader 的 入 口 地 址 就 被 
保存 在 SQ_PGM_START _PS 寄 存 器 中 。 如 果 Host 端 绘 
图 程序 决定 改 用 其 他 Shader 程 序 来 泻 染 新 的 帧 /场景 ， 
那 就 得 把 Shader 程 序 复制 到 显存 中 某 个 位 置 ， 然 后 更 
新 对 应 寄存 器 为 新 值 即 可 。 如 果 不 使 用 Shader 程 序 来 
演 染 ， 也 需要 设置 对 应 的 控制 寄存 器 来 声明 ， 那 么 
GPU 演 染 就 会 采用 默认 的 固定 管线 来 泻 染 。 其 实 ， 当 
代 的 GPU 内 部 已 经 早 就 没有 了 所 谓 固定 管线 数字 逻辑 
硬件 模块 了 ， 固 定 管线 也 都 是 使 用 一 个 按照 固定 管线 
的 图 形 质 量 标准 开发 的 简陋 Shader 程 序 模拟 出 来 的 ， 
当然 ， 这 个 白 送 的 简陋 Shader 的 质量 可 能 就 参差 不 
齐 了 。 

如 图 8-282 所 示 为 Type3 类 命令 ， 该 类 命令 并 不 是 
单纯 为 了 写 寄存 器 ， 而 是 真 地 为 了 向 GPU 发 送 某 种 具 
体操 作 命令 了 ， 命 令 参数 和 描述 被 放置 在 命令 包 中 的 
Data 字 段 中 ， 命 令 的 Opcode 操 作 码 被 放 到 包头 中 。 不 


SQ_TEX_SAMPLER_WORD0_0 
" CLAMI 


" САМР ү 

* CLAMPZ 

* ХУ _MAG_FILTER 

* XY MIN_FILTER 

* Z FILTER 

* MIP_FILTER 

。 BORDER_COLOR_TYPE 


. МАР. г 
» LOD_BIAS 
50 7 ТЕХ < SAMPLER_WORD2_0 


+ HIGH PRECISION_FILTER 
+ РЕКЕ МР 
РЕКЕ 7 


* POINT_SAMPLING_CLAMP 

= ТЕХ ARRAY OVERRIDE 

= DEPTH_COMPARE_FUNCTION 
* CHROMA_KEY 


FETCH_4 
$ * SAMPLE 15 PCF 
• LOD_USES MINOR_AXIS TYPE 


° Типовой, 
° SPI CONFIG_CNTL ç 


° 
° SPLINPUT 2 

о SPLFOG FUNC SCALE 
° 


过 ，GPU 收 到 这 类 名 令 包 之 后 ， 其 实 还 是 将 Data 字 段 
中 的 值 写 入 到 对 应 寄存 器 ， 只 不 过 命令 包 中 哪个 Data 
字段 对 应 哪个 寄存 器 是 按照 该 命令 的 Opcode 严 格 设计 
匹配 的 。 这 样 可 以 让 Host 端 的 程序 不 需要 记忆 众多 寄 
存 器 地 址 了 ， 而 是 由 GPU 内 部 的 Command Processor 来 
解析 Opcode， 然 后 将 对 应 的 Data 字 段 写 到 对 应 的 内 部 
寄存 器 中 。 那 如 果 Host 端 程序 员 是 个 奇 昔 乙 是 想 写 寄 
存 器 以 实现 直接 控制 的 快感 呢 ? 没 人 拦 着 ， 要 么 直接 
写 对 应 地 址 ， 要 么 用 Type0 类 命令 来 批量 写 寄存 器 。 

如 图 8-283 所 示 为 一 些 关 键 的 命令 一 览 。 我 们 第 
一 眼 就 看 到 了 最 重要 的 各 种 DRAW 命 令 。 正 是 利用 
DRAW 命 令 ，Host 端 程序 将 顶点 等 信息 发 送 给 GPU 从 
而 让 其 绘图 。 如 果 在 Host 端 将 这 些 命令 封装 为 某 个 
函数 ， 比 如 Draw_with_parameter_xxx()， 就 是 所 谓 的 
Draw Call f 。 

另外 还 有 用 于 控制 泻 染 状态 的 命令 ， 即 图 中 的 
State Management Packets。 泻 染 状 态 这 个 概念 我 们 
在 8.2.6 节 中 介绍 过 。 其 中 有 一 条 SET_RESOURCE 命 
令 ， 比 如 Host 端 程序 需要 将 Shader 所 在 的 位 置 指针 、 
顶点 缓冲 位 置 等 一 系列 资源 性 质 的 信息 写 入 该 命令 中 
然后 下 发 到 GPU， 后 者 就 会 将 这 些 指针 信息 保存 在 自 
己 本 地 对 应 寄存 器 中 备用 。 

同 理 ，SET_CONFIG_REG 命 令 中 携带 的 则 是 一 
些 控 制 参 数 信息 。 


50 7 ТЕХ 5 SAMPLER.. WORDI 0 SPI (Shader Processor Interpolator) Fixed Setup Ме resource setup 


SQ_VTX_CONSTANT_WORD0_0 
» ВАЗЕ АЕ: аме 
SQ_VTX_CONSTANT_W 
* SIE: мере << Ер 
50 УТХ _CONSTANT_WORD0_ 2 
STRIDE: dwVESize << 2 
° CLAMP_X: 1 
SQ_VTX_CONSTANT_WORD0_3 
SQ УТХ СОМЗТАМТ WORD0_6 


flat shading and point sprites. 
SPI INTERP CONTROL 0 

SPI_FOG_CNTL 
SPI INPUT Z 


SPLFOG_FUNC_BIAS 


оо 


Vertex Shader info setup: 


о SQ РСМ 5ТАКТ_У5: Base video memory address for the vertex shader 
о 50 PGM_RESOURCES_VS: Info about the resources used by this shader 


图 8-281 ”一 些 关键 寄存 器 一 览 


Type-3 packet 
Bi postion БЕЕГЕЕЕЕЕЕЕРЕЕРРНЕЕССОСЕ СЕО 
ти) Гаа Name Description 
Packet header — 11 COUNT | roPcooE Р о | PREDICATE | Predicated version of packet when bit 0 is set. 
- TI [Reserved “Tais Бс0 B undefined, and E gat to zeo by ФС. 
ОАТА 1 158 [т ОРСОБЕ carried ош. Ви 15 is the GMC bit. See section 4 for details. 
29:16 | COUNT ке T in The information body. It is N-1 if the information Бойу 
ОАТА 2 contains N ОМ 
т. вору 3130 [Tyre ЕТЮ 
раа п 


图 8-282 ”Type3 类 命令 包 格 式 


39 大话 计 算 机 一 -计算 机 系统 底层 架构 原理 极限 剖析 


Draw Packets 


DRAW_INDEX_IMMD_BE ° —] Draw packet used with big endian (BE) immediate (embedded) 


16 bit index data in the packet 


TNDEX ТҮРЕ Sends the current index type to the VGT 


DRAW_INDEX_IMMD 


State Management Packets 


SET_CONFIG_REG 
ЗЕТ CONTEXT REG 
SET ALU CONST 
SET BOOL_ CONST 
ЗЕТ ГООР CONST 
ЗЕТ_ВЕЗООВСЕ 
ЗЕТ ЗАМРГЕК 


ЗЕТ СП. CONST Ox6F 


Wait/Synchronization 
Packets 


MEM_SEMAPHORE 
WAIT_REG_MEM 


MEM_WRITE 


Write Register Data (single context) to a Location on Chip, 


>> | Write Render State Data (multi context) to a Location on Chip. 


Write ALU Constants to a Location on Chip. 


| Write Boolean Constants to а Location оп Chip. 


Write Loop Constants to a Location on Chip. 
> | Write Resource Constants to a Location on Chip. 
Write Sampler Constants to a Location on Chip. 


Write Control Constants to a Location on Chip. 


SURFACE_BASE_UPDATE Tnform the CP which base register has been updated. (work 
around for CP оп RV6xx). 


Sends Signal & Wait semaphores to the Semaphore Block. 


Wait Until a Register or Memory Location is a Specific Value. 


CP_INTERRUPT 


SURFACE_SYNC 


COND_WRITE 0x45 


Write DWORD to Memory For Synchronization 


Generate Interrupt from the Command Stream 


Synchronize Surface or Cache 


m | Conditional Write to Memory or to a Register 


EVENT_WRITE | | Generate an Event write to the VGT Event Initiator 


图 8-283 ”Type3 类 命令 一 览 


如 图 8-284 所 示 为 DRAW_INDEX 命 令 
(Opcode=0x2B) 的 具体 格式 。 在 这 个 命令 中 ， 将 
顶点 缓冲 区 基地 址 放置 在 了 前 两 个 字段 ， 将 需要 让 
GPU 绘制 的 顶点 索引 数量 放 到 第 三 个 字段 ， 将 绘制 
方式 控制 信息 放 入 第 四 个 字段 。GPU 拿 到 该 命令 包 
之 后 ， 还 是 将 对 应 字段 的 值 写 入 到 对 应 的 寄存 器 ， 
从 而 控制 内 部 模块 的 运行 。 比 如 该 命令 被 Command 
Processor 解 码 后 ， 会 将 对 应 值 写 入 到 VGT 模 块 对 应 
的 寄存 器 中 ，VGT 模 块 便 开始 调用 GPU 内 部 的 DMA 
引擎 硬件 模块 从 Host 主 存 中 取 回 顶点 值 ， 然 后 开始 
绘制 过 程 。 

此 外 ， 还 有 DRAW INDEX _IMMD_BE 命 令 ， 其 
直接 将 顶点 信息 封装 到 命令 的 DATA 字 段 中 ， 发 送 给 
GPU 演 染 。 这 就 像 CPU 指 令 集中 的 add i 指令 一 样 ， 其 
直接 将 立即 数 嵌 入 到 指令 中 计算 ， 而 不 是 通过 访 存 先 
拿 到 数据 再 来 计算 ， 这 也 是 IMMD (Immediately) 的 
含义 。 


提示 > 


这 些 命令 最 终 由 GPU 的 驱动 程序 负责 生成 并 塞 
入 到 Ring Queue 中 。 至 于 在 驱动 程序 之 前 发 生 了 什 
么 ， 又 是 谁 提供 了 什么 信息 给 驱动 程序 促使 其 生 
成 这 些 命令 ， 下 文中 再 介绍 。 可 以 设计 一 条 比如 
“EXE BATCH” 命 令 ， 驱 动 程序 可 以 将 多 个 命令 
打 成 一 个 包 放 在 某 个 缓冲 区 中 ， 将 这 个 缓冲 区 指针 
作为 EXE BATCH 命 令 的 参数 写 入 该 命令 ， 然 后 再 
将 EXE BATCH 命 令 写 入 到 Ring Queue。GPU 取 该 
命令 时 ， 根 据 指针 将 整个 命令 包 取 回 ， 然 后 批量 执 
行 包 中 的 命令 ， 这 样 可 以 提高 效率 。 


如 图 8-285 为 S3 公 司 当 年 发 布 的 ViRGE 显 卡 〈 号 
称 第 一 块 3D 加 速 卡 ) 的 寄存 器 一 览 ， 可 以 看 到 其 可 
供 配置 的 各 种 绘图 参数 。 但 是 其 并 不 支持 可 编程 ， 所 
以 并 没有 用 于 记录 “Shader 被 放 在 哪 了 ”的 寄存 器 。 


Ordinal__| Field Name 


а e 


Description 


1 [ HEADER ] Header of the packet 


2 [INDEX_BASE_LO] 


[INDEX BASE НП 


Base Address [31:1] of Index Buffer (Word-Aligned). 
Written to the VGT DMA BASE register. 
Bits [7:0] Base Address Hi [39:32] of Index Buffer. 


Written to the VGT_DMA_BASE_HI register. 


[NDEX_COUNT] 


INDEX_ COUNT [31:0] – Number of indices in the Index Buffer. 


Written to the VGT_DMA_SIZE register. 
Written to ће УСТ МОМ INDICES register for the assigned context. 


[DRAW_INITIATOR] 


Draw Initiator Register in the Вбхх. 


Written to the VGT DRAW INITIATOR register for the assigned context. 


图 8-284 DRAW _INDEX 命 令 的 具体 格式 


至 于 ViRGE GPU 是 否 可 以 接收 类 似 AMD R600 那 种 命 
令 ， 还 是 说 只 能 通过 在 Host 端 用 Stor 指 令 写 寄 存 器 方 
式 来 控制 GPU 干 活 ， 冬 瓜 哥 就 不 得 而 知 了 ， 但 是 基本 
上 逃 不 出 这 两 种 方式 。 


隆重 强调 一 下 ，GPU 泻 染指 令 与 GPU 内 部 Shader 
处 理 核心 的 机 器 指令 ， 完 全 是 两 码 事 。 后 者 是 硬件 
级 别 的 指令 集 ， 牵 扯 到 非常 细节 的 最 底层 运算 指 
令 ， 比 如 加 减 乘 除 、 开 方 取 整 求 绝 对 值 等 ， 而 前 者 
是 由 GPU 内 部 的 CP 运行 固件 代码 ( 或 者 说 微 码 ) 来 
解析 并 执行 的 甚至 可 以 是 ASCII 编 码 形式 的 字符 囊 。 
Shader 程 序 代码 中 包含 的 是 GPU 机 器 指令 ， 而 绘图 程 
序 下 发 的 泻 染 命令 并 不 是 最 终 的 机 器 码 。 


如 图 8-286 所 示 为 GPU 内 部 的 执行 状态 机 示意 
图 。Ring Queue 的 首尾 指针 相等 表示 没有 可 执行 的 命 
令 ，GPU 处 于 空闲 状态 ，Frame Buffer 无 变化 ， 屏 幕 
显示 内 容 也 就 无 变化 。 当 发 现 有 命令 进入 时 〈 如 何 发 
现 有 新 条 目 被 加 入 Ring Queue? 具体 回顾 第 7 章 中 给 出 
的 具体 过 程 ) ，GPU 开 始 取 命令 、 解 析 、 执 行 ， 执 行 
过 程 中 可 能 会 读 取 更 多 数据 比如 顶点 、 纹 理 等 ， 执 行 
结束 后 进入 空闲 状态 。 


图 8-286 ”GPU 内 部 执行 状态 机 


计算 机 图 形 学 真是 门 博大 精深 的 学 问 。 到 现在 为 
止 ， 冬 瓜 哥 基本 上 已 经 给 大 家 展示 了 计算 机 图 像 泻 染 
以 及 演 染 加 速 的 基本 原理 ， 然 而 ， 还 有 太 多 的 细节 等 
待 大 家 去 发 据 。 大 家 不 妨 再 次 回顾 一 下 ， 你 在 玩 游戏 
时 ， 移 动 鼠 标 导致 视角 旋转 之 后 ，GPU 会 发 生 什么 ? 
这 次 可 以 将 我 们 在 第 7 章 介绍 的 PCIE IO 方面 的 知识 也 
融合 进来 一 起 思考 。 相 信 不 少 人 在 思考 这 条 路 径 的 时 
候 ， 思 维基 本 都 中 断 在 了 “游戏 程序 应 该 按照 什么 规 
则 /格式 来 生成 数据 及 命令 并 传递 给 GPU” 这 个 地 方 。 
是 的 ， 这 将 是 我 们 最 后 需要 探索 的 一 处 了 。 


8.2.10 3D#EIAPI 及 软件 栈 


在 前 文中 ， 我 们 了 解 了 GPU 内 部 对 命令 的 执行 
过 程 ， 也 知道 了 Host 端 程序 需要 准备 对 应 的 数据 和 命 
令 ， 并 将 命令 通过 Ring Queue 发 送 给 GPU。 那 么 ， 所 
谓 “Host 端 程序 ”， 是 指 绘图 程序 /游戏 程序 ， 还 是 
GPU 驱动 程序 ， 或 是 其 他 ? 这 些 程序 之 间 又 是 怎么 相 
互 合作 的 ? 本 节 就 试图 带领 大 家 探索 在 图 形 演 染 流程 
中 Host 端 这 一 侧 所 发 生 的 事情 。 

我 们 从 GPU/ 显 卡 驱动 程序 说 起 。 显 卡 是 个 PCIE 
设备 ，Host 端 的 PCIE Bus Driver 扫 描 PCIE 网 络 发 现 该 
设备 之 后 ， 加 载 该 设备 的 驱动 。 驱 动 程序 首先 得 对 显 
卡 进行 各 种 初始 化 操作 ， 包 括 分 配 中 断 向 量 ， 将 显卡 
申请 的 BAR 空 间 映 射 到 系统 的 全 局 地 址 空间 中 ， 经 过 
这 一 步 ， 就 可 以 向 对 应 BAR 中 对 应 地 址 (对 应 着 各 种 
控制 寄存 器 ) 写 入 对 应 的 控制 信息 了 。 这 些 控制 信息 
包括 设置 各 种 运行 参数 、 显 示 模 式 等 。 同 时 ， 驱 动 程 
序 还 要 为 GPU 向 Host 端 的 内 存 管理 程序 模块 申请 位 于 
Host 端 内 存 中 的 Ring Buffer (Ring Queue) ， 然 后 将 
Ring Buffer 的 基地 址 指针 和 队列 深度 值 写 入 到 GPU 对 
应 的 寄存 器 中 ， 让 GPU 知晓 。 这 些 步 骤 几 乎 是 每 一 个 
PCIE 设 备 〈 不 仅仅 是 显卡 ) 所 必需 的 。 

Ring Buffer 建 立 好 之 后 ， 就 可 以 向 其 中 填充 各 种 
命令 了 。 这 些 命令 可 以 是 上 层 程序 模块 下 发 下 来 的 绘 
图 命令 以 及 顶点 、 纹 理 等 数据 指针 (一同 包 含 在 命中 
描述 体 中 ) ， 也 可 以 是 GPU 驱动 程序 自行 生成 的 用 于 
随时 调整 GPU 工作 状态 参数 和 模式 的 一 些 控制 命令 ， 
这 些 控制 命令 大 到 直接 reset 显 卡 ， 改 变 显示 分 辩 率 ， 
小 到 降低 显卡 上 的 散热 风扇 转速 ， 无 所 不 包 。 在 实际 
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实现 中 ， 可 能 会 将 这 两 类 命令 分 开 走 不 同 的 Ring Buffer 
(回顾 第 7 章 中 介绍 过 的 Admin Queue 的 概念 ) 。 

至 于 这 些 命令 是 什么 格式 ， 我 们 已 经 在 8.2.9 节 给 
出 了 AMD R600 GPU 的 命令 格式 样 例 ， 其 他 GPU 的 命 
令 以 及 格式 会 不 同 ， 但 本 质 类 似 。 那 么 目前 似乎 只 剩 下 
一 个 问题 你 可 能 迫不及待 要 问 : 上 层 程序 模块 是 谁 ? 我 们 
下 文中 再 回答 ， 但 是 其 一 定 与 绘图 程序 脱 不 了 关系 。 先 
来 了 解 一 下 这 些 命令 是 如 何 被 组 织 并 下 发 给 GPU 的 。 


8.2.10.1 GPU 内 核 态 驱动 及 命令 的 下 发 


下 面 以 比较 老 的 Intel i915 系 列 南北 桥 芯片 组 中 
的 集成 图 形 处 理 器 〈 集 成 到 南 桥 芯 片 中 ) 为 例 。 我 
们 假设 上 层 绘图 程序 将 要 下 发 的 命令 先 打 包 到 一 个 
缓冲 Cbatchbuffer) 中 ， 然 后 批量 下 发 这 些 命令 ; 
同时 假设 这 些 被 打包 的 命令 全 部 都 是 ML NOOP 命 令 
(该 命令 被 CP 解码 后 不 会 有 任何 动作 ， 所 以 叫 作 No 
Operation) 。batchbuffer 中 的 最 后 一 条 命令 必须 为 
МІ BATCH BUFFER_END 命 令 ， 这 样 CP 就 知道 该 
batchbuffer 命 令 包 执行 结束 了 。 这 里 建议 再 回顾 一 下 
上 文中 介绍 过 的 样 例 命令 格式 ， 把 你 的 思维 漏洞 填补 
踏实 然后 再 继续 前 进 。 这 里 你 可 能 会 产生 一 个 疑问 ; 
如 果 这 些 命令 是 由 上 层 绘图 程序 生成 的 ， 那 么 上 层 绘 
图 程序 编写 者 需要 熟知 每 个 厂商 GPU 的 每 个 命令 吗 ? 
这 是 不 现实 的 ， 所 以 此 处 可 以 有 一 个 猜测 : 在 下 层 某 
处 ， 一 定 有 某 个 角色 ， 将 上 层 绘图 程序 发 出 的 、 统 一 
格式 /方式 /流程 的 标准 命令 ， 或 者 说 函数 调用 ， 转 换 
成 底层 GPU 和 能够 识别 的 命令 ， 而 且 这 个 角色 由 每 个 
GPU 厂商 开发 的 。 嗯 ， 下 文 再 说 。 先 来 看 图 8-287。 

第 1 步 。 上 层 绘图 程序 首先 创建 一 个 batchbuffer， 
在 Host 端 ， 程 序 的 一 切 行为 都 要 符合 规范 ， 申 请 任何 
内 存 空间 都 要 像 内 存 管理 程序 模块 申请 ， 可 以 将 这 个 
过 程 封装 成 函数 ， 每 次 申请 时 调用 即 可 。 这 个 函数 ， 
GPU 厂商 为 你 开发 。 实 际 上 Intel 开 发 了 一 整套 Graphic 
Execution Management (GEM) 函数 库 ， 就 是 为 你 提 
供 方 便 的 。 申 请 batchbuffer 的 函数 名 为 gem_create0， 
向 该 buffer 中 填 入 命令 时 ， 你 可 以 调用 gem_write0) 。 
这 里 创建 一 个 名 为 gem_exec 的 batchbuffer， 并 向 其 


2. Populate execbuffer2 struct 
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execbuf.buffer_count = 1: ВЕ 
execbuf.batch Start Ç а-о 
execbuf.batch len = 8; 


execbuf.flags = ring_id; 
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中 填 入 大 批 ML NOOP 命 令 ， 其 结尾 跟着 一 条 MI_ 
ВАТСН BUFFER_END 命 令 。 我 们 的 最 终 目 标 是 把 这 
个 batchbuffer 的 指针 通告 给 GPU 并 让 它 读 取 执行 。 

第 2 步 。 任 何 命令 ， 不 管 是 单条 ， 还 是 一 批 ， 都 
必须 被 放 入 一 个 Descriptor 中 ， 这 个 套路 我 们 在 第 7 章 
已 经 介绍 得 足够 充分 了 。 所 以 ， 在 这 一 步 中 ， 绘 图 
程序 需要 填 个 表 ， 把 这 个 Descriptor 描 述 出 来 。GEM 
函数 库 中 ， 该 描述 表 的 格式 遵循 execbuffer2 结 构 体 至 
于 为 什么 会 带 一 个 >， 冬瓜 哥 真 的 不 知道 ) 。 程 序 只 需 
要 复印 这 张 表 ， 给 其 命名 为 execbuf， 并 向 其 中 填 入 需 
要 执行 的 命令 。 如 果 是 批量 命令 则 要 将 上 一 步 生成 的 
batchbuffer (名 为 gem_exec) 填 入 ， 然 后 填 入 一 些 其 他 的 
控制 信息 ， 比 如 从 batchbuffer 中 的 哪个 位 置 开 始 执行 指 
令 (batch start_offset) 等 。 最 终 这 张 样式 为 execbuffer2、 
名 称 为 execbuf 的 表 ， 需 要 被 传送 给 GPU 的 驱动 程序 。 

第 3 步 。 上 层 绘 图 程序 调用 drmioct10 将 刚才 填 好 
的 &execbuf (还 记得 & 符 号 的 作用 么 ?在 C 语 言 中 它 
表示 某 个 对 象 所 在 位 置 的 地 址 指针 ) 表 传 递 给 位 于 内 核 
态 的 GPU 驱动 程序 。drmioctlO 函 数 等 其 实 是 执行 了 ioctl 
系统 调用 (回顾 第 5 章 的 5.5.6 节 ， 系 统 调用 的 更 多 细节 
我 们 将 在 第 11 章 中 介绍 ) ， 从 而 将 信息 传 入 内 核 态 。 

第 4 步 。 位 于 操作 系统 内 核 态 的 i915 显 卡 驱动 
(i915.ko 程 序 模块 ，Linux 操 作 系 统 下 的 内 核 态 的 设 
备 驱动 程序 扩展 名 为 .ko) 对 应 的 代码 i915_gem do_ 
execbuffer() 被 系统 调用 激活 ， 从 而 将 第 2 步 生成 的 
execbuf 表 格 拿 到 手 。 

第 5 步 。 驱 动 程序 将 该 命令 描述 表 整 理 好 之 后 直 
接 派发 到 Ring Buffer 中 。 当 然 ， 派 发 过 程 其 实 对 应 着 
很 多 细节 步骤 ， 比 如 修改 Ring Buffer 的 控制 指针 ， 以 
及 更 新 GPU 一 侧 用 于 记录 Ring Buffer 首 尾 指针 的 寄存 
器 等 ， 这 些 都 由 驱动 自动 完成 。 整 个 命令 下 发 过 程 宣 
告 完 成 ， 后 续 就 是 GPU 的 泻 染 流程 了 。 


我 们 的 Shader 程 序 哪 去 T? 在 上 述 示例 中 ， 
假设 所 有 的 命令 都 是 MI NOOP。 如 果 要 真 的 泻 染 
么 东西 的 话 ， 命 令 就 可 能 是 如 图 8-284 所 示 的 
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图 8-287 Intel i915 芯 片 组 内 集成 显卡 的 驱动 下 发 命令 流程 图 
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DRAW _ INDEX 命令 ( 当然， 这 是 AMD 而 不 是 Intel 
i915 的 命令 ) 。 我 们 的 Shader 程 序 的 指针 ， 需 要 被 
绘图 程序 提前 更 新 到 图 8-281 右 下 角 所 示 的 寄存 器 
中 ,这样 GPU 在 泻 染 的 时 候 就 可 以 载 入 Shader 程 序 
去 处 理 。 当 然 ， 不 同 的 GPU 有 不 同 的 设计 ， 比 如 冬 
瓜 哥 可 以 自己 做 一 款 GPU， 然 后 设计 这 样 一 条 命 
令 : DRAW WITH SHADER， 凡 是 需要 用 Shader 来 
处 理 的 数据 全 都 使 用 这 条 命令 。 不 过 ， 目 前 几乎 所 
有 的 3D 绘 图 程序 ， 没 有 不 用 Shader 的 ， 于 是 乎 GPU 
也 没 必 要 加 入 这 种 指令 ， 默 认 都 要 使 用 Shader。 如 果 
你 不 提供 Shader， 系 统 也 会 ( OpenGL/Direct3D， 下 文 
详细 介绍 ) 给 你 提供 一 个 默认 Shader 下 发 给 GPU 
执行 ， 其 性 能 和 效果 就 可 能 达 不 到 你 的 要 求 了 。 


从 上 面 几 个 步骤 可 以 看 出 ， 演 染指 令 是 由 上 层 程 
序 生成 的 ， 而 不 是 GPU 位 于 内 核 态 的 驱动 程序 ， 后 者 
只 是 负责 将 上 层 的 任务 书 拿 到 并 派发 到 队列 中 而 已 。 
当然 ， 内 核 态 驱动 程序 还 需要 负责 初始 化 GPU 和 管理 
底层 硬件 层面 的 控制 ， 比 如 PCIE 方 面 等 。 

那么 ， 如 果 让 游戏 程序 来 生成 这 些 泻 染 命令 ， 
是 很 不 方便 的 。 如 果 世 界 上 只 有 一 个 厂商 一 种 型 号 的 
GPU， 那 么 什么 问题 都 不 存在 ， 上 层 绘图 程序 只 需要 
学 习 该 种 GPU 的 接口 就 可 以 了 。 或 者 ， 如 果 世 界 上 只 
有 一 个 绘图 程序 ， 那 也 好 办 ， 所 有 的 GPU 厂商 可 以 按 
照 该 程序 的 口味 来 修改 自己 的 绘图 命令 格式 ， 将 其 变 
成 统一 标准 化 的 。 可 是 ， 市 场 上 的 绘图 程序 和 GPU 都 
有 很 多 种 。 上 层 绘图 程序 不 可 能 单独 学 习 并 支持 众多 
不 同 的 命令 格式 。 

解决 这 个 问题 的 办 法 似乎 只 有 一 种 ， 那 就 是 加 一 
层 中 间 件 (Middleware) 函数 库 。 该 函数 库 对 上 层 提 
供 统一 的 绘图 命令 函数 ， 比 如 DrawPrimitive()， 对 下 
层 ， 翻 译 成 众多 不 同 GPU 能 识别 的 泻 染指 令 或 者 GPU 
的 寄存 器 写 入 (如果 GPU 不 支持 命令 解析 的 话 ) ， 然 
后 通过 类 似 图 2-284 所 示 的 过 程 发 送 给 GPU 的 内 核 态 
驱动 压 入 队列 执行 。 

这 类 图 形 浑 染 中 间 件 目前 主流 的 有 两 种 : 
OpenGL 与 Direct3D (下 文 简称 0GL 和 D3D) 。 图 形 泻 
染 中 间 件 又 被 称 为 图 形 浑 染 API 或 者 绘图 语言 。OGL 


C++ 


和 D3D 这 两 个 名 字 ， 可 谓 是 宅 里 寻常 见 堂前 几 度 闻 
了 。 然 而 ， 在 引荐 这 两 位 大 侠 正 式 出 场 之 前 ， 我 们 还 
得 再 深入 思考 一 下 这 个 问题 ， 纵 使 上 有 了 OGL 和 D3D 这 
两 位 大 侠 ， 纵 使 其 在 江湖 颇 有 声望 ， 上 层 绘图 程序 纷 
纷 调用 它们 提供 的 统一 绘图 函数 ， 但 是 下 层 却 很 不 好 
办 ， 因 为 让 江湖 上 众多 派系 统一 泻 染 命令 也 不 现实 ， 
如 果 下 层 也 都 统一 了 ， 也 就 没 这 两 位 大 侠 什么 事 了 。 
这 两 位 存在 的 价值 就 是 对 上 统一 ， 对 下 按照 各 自 派系 
的 命令 执行 。 不 过 ， 如 果 让 这 两 位 大 侠 亲 自学 习 每 一 
种 GPU 的 演 染 命令 ， 热 读 手册 ， 指 哪 打 哪 ， 这 有 恐怕 也 
不 现实 。 如 何 解决 这 个 问题 ? 


8.2.10.2 GPU 用 户 态 驱动 及 命令 的 翻译 


不 如 干脆 这 样 ， 各 大 派系 自己 来 开发 一 个 翻译 
模块 ， 因 为 只 有 各 自 厂商 了 解 自 己 的 GPU 演 染 命令 
格式 以 及 控制 方式 是 什么 样 的 。 然 后 ， 各 个 派系 安插 
翻译 ， 与 这 两 位 大 侠 之 间 再 次 统一 接口 。OGL 和 D3D 
经 过 详细 周密 的 分 析 ， 最 终 抽 象 出 一 套 几 乎 所 有 GPU 
都 必须 实现 的 泻 染 命令 名 称 、 方 式 、 参 数 。 最 后 由 各 
家 翻译 官 负责 实现 各 自 对 应 的 函数 ， 这 些 函 数 的 名 称 
和 参数 以 及 返回 值 严格 按照 OGL 和 D3D 的 定义 ， 但 是 
其 内 部 具体 实现 过 程 可 能 很 不 相同 。 比 如 D3D 大 侠 定 
义 了 一 个 函数 名 为 : PsSetShader0， 并 定义 了 两 个 参 
数 : hDevice 和 hShader， 分 别 指 代 GPU 设备 标识 以 及 
Shader 程 序 描述 对 象 所 在 的 指针 ， 如 图 8-288 所 示 。 

这 个 函数 的 意思 是 向 GPU 通告 后 续 泻 染 应 该 使 
用 的 Pixel Shder 程 序 的 位 置 ， 所 有 支持 D3D 的 GPU 对 
应 的 翻译 官 必 须 实现 这 个 函数 。 至 于 该 函数 内 部 将 这 
个 动作 翻译 成 了 各 家 GPU 使 用 的 什么 命令 、 什 么 寄存 
器 读 写 操作 ，D3D 毫 不 关心 。 那 么 ， 上 层 绘图 程序 与 
D3D 之 间 的 接口 又 是 什么 样 的 呢 ? 就 拿 设 置顶 点 着 色 
器 程序 这 个 过 程 来 讲 ，D3D 为 上 层 程序 提供 的 接口 是 
SetVertexShader( pShader )。 也 就 是 说 ， 游 戏 程序 首先 
生成 和 编译 好 Shader 程 序 ， 然 后 调用 由 D3D 定 义 并 提 
供 实现 的 SetVertexShader( pShader ) 函 数 ， 将 Shader 程 
序 指针 传递 给 D3D， 之 后 D3D 调 用 由 D3D 定 义 但 是 由 
GPU 翻 译 官 实现 的 pfnPsSetShader() 函 数 将 Shader 指 针 
通报 给 后 者 ， 后 者 生成 对 应 的 操作 方式 (比如 更 新 图 
8-281 右 下 角 的 寄存 器 ， 或 者 采用 如 图 8-283 所 示 的 高 


PFND3D10DDI_SETSHADER PsSetShader; 


МОТО АРТЕМТВУ PsSetShader( 
_Тп_ 0301000І НОЕМІСЕ hDevice, 
_Тп_ 03018001_Н5НАОЕК hShader 
) 
баке 


Parameters 


ћОемке [in] 
А handle to the display device (graphics context). 


hshader lin] 
A handle to the pixel shader code object. 


The PsSetShader function sets a pixel shader to be 
used in all drawing operations. After the PsSetShader 
function completes, all subsequent drawing 
operations use the given shader until another is 
selected. 


图 8-288 Direct3D 定 义 的 PsSetShader0 函 数 


级 命令 方式 ) 并 控制 GPU 执行 该 动作 。 
这 个 上 


GRAPHICS RENDERING PIPELINE 


Simulator updat 


rld (object p 
Renderer creates Draw calls via Dire: 


Di 
via DDI interface 


User Mode Driver creates GPU comman 
them to Windows 


Command bi 


日 GPU 安插 的 翻译 官 ， 被 称 为 GPU 的 用 户 态 
驱动 程序 。GPU 的 用 户 态 驱动 程序 和 内 核 态 驱动 程序 
共同 被 称 为 HAL (Hardware Abstraction Layer， 硬 件 
抽象 层 ) 。 还 记得 8.2.9 节 介绍 过 的 高 级 着 色 语言 么 ? 
GPU 用 户 态 驱 动 程序 同时 也 负责 将 高 级 着 色 语言 或 
者 汇编 着 色 语 言 翻 译 成 GPU 机 器 指令 ， 并 将 翻译 好 的 
Shader 程 序 下 发 给 GPU， 后 者 在 泻 染 管线 中 对 应 步骤 


3D API to репе 


ct3D runtime parses commands and call: 
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将 调 


—й, 


了 ， 实 际 干 活 的 都 


) 


а frame 


itions, physics, 


Jser Mode Di 


d buffers and submits 


rs are placed in a context queue until the OS 


kernel scheduler 15 ready to accept them 


Command buffers are passed to the K 
processes them and sends them to Ч 


GPU hardware sends an interrupt to the 
is complete 


Application sends Present calls when а fi 


rendering and can b 


图 8- 


VsSetConstantBuffers; 
PsSetShaderResources; 
PsSetShader; 

PsSetSamplers; 

VsSetShader; 

DrawIndexed; 

Draw; 
DynamiclABufferMapNoOverwrite; 
DynamiclABufferUnmap; 
DynamicConstantBufferMapDiscard; 
DynamiclABufferMapDiscard; 
DynamicConstantBufferUnmap; 
PsSetConstantBuffers; 
laSetlnputLayout; 
laSetVertexBuffers; 
laSetIndexBuffer; 
DrawIndexedInstanced; 
DrawInstanced; 
DynamicResourceMapDiscard; 


图 8-290 


CreateRasterizerState; 
DestroyRasterizerState; 
CalcPrivateShaderSize; 
CreateVertexShader, 
CreateGeometryShade 
CreatePixelShader; 


DestroyResource; 
CalcPrivateShaderResourceViewSize; 
CreateShaderResourceView; 
DestroyShaderResourceView; 
CalcPrivateRenderTargetViewSize; 
CreateRenderTargetView; 
DestroyRenderTargetView; 
CalcPrivateDepthStencilViewSize; 
CreateDepthStencilView; 
DestroyDepthStencilView; 
CalcPrivateElementLayoutSize; 
CreateElementLayout; 
DestroyElementLayout; 


CreateGeometryShade 
DestroyShader; 


CreateSampler; 
DestroySampler; 
CalcPrivateQuerySize; 


CalcPrivateBlendStateSize; CreateQuery; 
CreateBlendState; DestroyQuery; 
DestroyBlendState; CheckFormatSupport; 


CalcPrivateDepthStencilStateSize; 
CreateDepthStencilState; 
DestroyDepthStencilState; 
CalcPrivateRasterizerStateSize; 
CreateCommandList 
DestroyCommandList; 


CheckMultisampleQual 
CheckCounterinfo; 
CheckCounter; 
DestroyDevice; 
CalcPrivateCommandLi 
RecycleCreateDeferredi 


图 8-291 


CalcPrivateGeometryShaderWithStreamOutput; 


CalcPrivateSamplerSize; 


Mode Driver, which 


е GPU 


Kernel Mode Driver 


тате həs finished 


289 演 染 流程 中 的 关键 角色 示意 图 
DynamicResourceUnmap; 
GsSetConstantBuffers; 

GsSetShader; 

laSetTopology; 


StagingResourceMap; 
StagingResourceUnmap; 
VsSetShaderResources; 
VsSetSamplers; 
GsSetShaderResources; 
GsSetSamplers; 
SetRenderTargets; 
ShaderResourceViewReadAfterWriteHazard; 
ResourceReadAfterWriteHazard; 
SetBlendState; 
SetDepthStencilState; 
SetRasterizerState; 

QueryEnd; 

QueryBegin; 
ResourceCopyRegion; 
ResourceUpdateSubresourceUP; 


SetTextFilterSize; 
ResourceConvert; 


ResourceConvertRegion; 


DrawindexedInstancedli 
DrawInstancedIndirect; 
CommandListExecute; 
HsSetShaderResources; 
HsSetShader; 
HsSetSamplers; 
HsSetConstantBuffers; 
DsSetShaderResources; 
DsSetShader; 
DsSetSamplers; 
DsSetConstantBuffers; 
CreateHullShader; 
CreateDomainShader; 


г; 


rWithStreamOutput 


lityLevels; 
CalcDeferredContextHandleSize; 
CalcPrivateDeferredContextSize; 
CreateDeferredContext; 

istSize; AbandonCommandList; 

Context: RecycleCommandList; 


RecycleCreateCommandList; 


Direct3D 11 版 本 中 定义 的 必须 由 GPU 用 户 态 驱动 程序 实现 的 函数 一 览 (2) 


是 威望 、 承 上 启 下 的 管理 协调 能 


CheckDeferredContextHandleSizes; 


声 绘 色 一 一 计算 机 如 何 处 理 声音 和 


[0967 


这 些 程序 对 项 点 和 像素 进行 处 理 。 如 图 8-289 
所 示 为 泻 染 流程 中 的 关键 角色 和 流程 示意 图 。 

如 图 8-290 和 图 8-291 所 示 为 微软 在 其 Direct3D 11 
版 本 中 定义 的 、 必 须 由 GPU 用 户 态 驱动 程序 实现 的 函数 
从 这 些 函 数字 
这 倒 有 点 意思 


字面 的 意思 可 以 大 致 理解 其 作用 。 

了 ， 这 两 位 大 侠 成 了 专门 传 话 的 
是 这 帮 翻 译 官 们 。 这 两 位 大 侠 靠 的 
以 及 对 事物 精 


SoSetTargets; 

DrawAuto; 

SetViewports; 
SetScissorRects; 
ClearRenderTargetView; 
ClearDepthStencilView; 
SetPredication; 
QueryGetData; 

Flush; 

GenMips; 

ResourceCopy; 
ResourceResolveSubresource; 
ResourceMap; 
ResourceUnmap; 
ResourcelsStagingBusy; 
RelocateDeviceFuncs; 
CalcPrivateResourceSize; 
CalcPrivateOpenedResourceSize; 
CreateResource; 
OpenResource; 


Direct3D 11 版 本 中 定义 的 必须 由 GPU 用 户 态 驱动 程序 实现 的 函数 一 览 (1) 


CalcPrivateTessellationShaderSize; 


GsSetShaderWithlfaces; 
HsSetShaderWithlfaces; 
DsSetShaderWithlfaces; 
CsSetShaderWithifaces; 
CreateComputeShader; 
CsSetShader; 
CsSetShaderResources; 
CsSetSamplers; 
CsSetConstantBuffers; 
CalcPrivateUnorderedAccessViewSize; 
CreateUnorderedAccessView; 
DestroyUnorderedAccessView; 
ClearUnorderedAccessViewUint; 
ClearUnorderedAccessViewFloat; 
CsSetUnorderedAccessViews; 
Dispatch; 

Dispatchindirect; 
SetResourceMinLOD; 
CopyStructureCount; 
RecycleDestroyCommandList; 


indirect; 


33 大 话 计 算 机 一 -计算 机 系统 底层 架构 原理 极限 剖析 


确 、 标 准 的 描述 能 力 ， 面 对 这 样 一 个 复杂 的 生态 ， 能 
做 到 这 些 就 已 经 是 大 功劳 了 。 

D3D/OGL 与 GPU 用 户 态 驱动 之 间 的 接口 其 实 是 
双向 的 ， 前 者 也 为 后 者 准备 了 一 些 可 供 调 用 的 函数 。 
这 些 函数 中 有 些 可 以 让 GPU 用 户 态 驱动 查询 当前 D3D/ 
OGL 中 的 一 些 状态 (比如 有 Query 字 样 的 ) ; 有 些 则 
是 让 GPU 驱动 来 告诉 前 者 其 所 希望 的 运行 模式 〈 比 如 
有 Set 字 样 的 ) ; 有 些 则 是 礼尚往来 ， 前 者 先 调用 后 者 
某 个 函数 让 后 者 完成 一 些 工作 ， 然 后 后 者 再 调用 前 者 
提供 的 函数 来 通告 完成 结果 或 者 将 结果 作用 到 前 者 的 
程序 逻辑 中 。 如 图 8-292 所 示 为 Direct3D 11 版 本 向 GPU 
用 户 态 驱动 提供 的 回调 函数 一 览 。 

Direct3D 与 GPU 用 户 态 驱动 之 间 的 对 接 过 程 大 致 
是 如 下 流程 ;首先 D3D 将 GPU 用 户 态 驱动 对 应 的 dl 文 
件 〈 动 态 链接 库 ， 见 第 5 章 相关 内 容 ) 载 入 ， 并 调用 
其 内 部 的 OpenAdapter10_2( *pOpenData ) 函 数 ， 该 函 
数 将 向 GPU 发 送 一 些 配置 命令 或 者 寄存 器 读 写 操作 ， 


通告 GPU 有 程序 准备 使 用 该 GPU，GPU 内 部 的 CP 将 会 
做 一 系列 初步 准备 工作 。 至 于 这 些 准备 工作 的 细节 ， 
就 与 各 GPU 内 部 设计 有 关 了 。 

OpenAdapter10_2() 函 数 以 及 参数 如 图 8-293 所 
示 。 该 函数 还 会 在 D3D 和 GPU 用 户 态 驱动 之 间 交 互 两 
个 重要 信息 ， 也 就 是 前 者 提供 给 后 者 的 回调 函数 表 
指针 *pAdapterCallbacks( 前 者 调用 该 函数 时 在 参数 
pOpenData 指 针对 应 的 数据 结构 中 给 出 ) ， 以 及 后 者 
提供 给 前 者 调用 的 函数 表 该 函数 执行 过 程 中 填充 到 
pOpenData 数 据 结 构 中 的 由 *pAdapterFuncs 指 向 的 二 级 数 
据 结 构 中 ) 。 然 后 ， 双 方 就 可 以 相互 调用 对 方 提供 的 函 
数 实现 后 续 步骤 了 。 这 两 个 数据 结构 如 图 8-294 所 示 。 

通过 OpenAdapter10_2() 函 数 ，D3D 一 侧 获 知 了 
GPU 驱 动 一 侧 提 供 的 pfnCreateDevice() 函 数 的 地 址 。 
随后 ，D3D 一 侧 调用 pfnCreateDevice() 函 数 来 向 GPU 
通告 程序 即将 准备 利用 该 GPU 做 泻 染 。D3D 调 用 该 函 
数 时 会 将 其 提供 给 GPU 驱动 的 所 有 相关 回调 函数 指针 


AllocateCb; WaitForsynchronizationObjectCb; DestroyPagingQueueCb; 

DeallocateCb; SignalSynchronizationObjectCb; Lock2Cb; 

SetPriorityCb; SetAsyncCallbacksCb; Unlock2Cb; 

QueryResidencyCb; SetDisplayprivateDriverFormatCb; InvalidateCacheCb; 

SetDisplayModeCb; OfferAllocationsCb; ReserveGpuVirtualAddressCb; 
PresentCb; ReclaimAllocationsCb; MapGpuVirtualAddressCb; 

RenderCb; CreateSynchronizationObject2Cb; FreeGpuVirtualAddressCb; 

LockCb; WaitForSynchronizationObject2Cb; UpdateGpuVirtualAddressCb; 

UnlockCb; SignalSynchronizationObject2Cb; CreateContextVirtualCb; 

EscapeCb; PresentMultiPlaneOverlayCb; SubmitCommandCb; 

CreateOverlayCb; LogUMDMarkerCb; Deallocate2Cb; | W ñ 
UpdateOverlayCb; MakeResidentCb; SignalSynchronizationObjectFromGpu2Cb; 
FlipOverlayCb; EvictCb; ReclaimAllocations2Cb — 
DestroyOverlayCb; WaitForSynchronizationObjectFromCpuCb; _ GetResourcePresentPrivateDriverDataCb; 
CreateContextCb; SignalSynchronizationObjectFromCpuCb; UpdateAllocationPropertyCb; 
DestroyContextCb; WaitForSynchronizationObjectFromGpuCb;  vOrfferAllocations2Cb; 


CreateSynchronizationObjectCb; ReclaimAllocations3Cb; 


DestroySynchronizationObjectCb; 


SignalSynchronizationObjectFromGpuCb; 
CreatePagingQueueCb; 


Direct3D 11 为 GPU 用 户 态 驱动 提供 的 回调 函数 一 览 


C++ 


图 8-292 


typedef struct D3D10DDIARG_OPENADAPTER { 
D3D160DI_HRTADAPTER hRTAdapter; 


D30100DI_HADAPTER hAdapter; 
С++ | UINT Interface; 
UINT Version; 
const D3DDDI_ADAPTERCALLBACKS *pAdapterCallbacks; 
PFND3D16DDI_OPENADAPTER OpenAdapter10_2; union ( 
D3D10DDI_ADAPTERFUNCS *pAdapterFuncs; 


#1 D3D10DDI_MINOR_HEADER_VERSION >= 2 || D3D11DDI MINOR_HEADER_VERSION >= 1 


HRESULT APIENTRY OpenAdapter10_2( 
D3D10_2DD1_ADAPTERFUNCS *pAdapterFuncs_2; 


_Inout_ D3D1@DDIARG_OPENADAPTER *pOpenData 


) #endif 
}; 
555 79 } D3D100DIARG OPENADAPTER; 
图 8-293 ОрепАдар!ег10 20 函数 及 参数 
с++ | 


typedef struct рзрле 2001 АПАРТЕВРИМС5 ( 
PFND3D19DDI_CALCPRIVATEDEVICESIZE pfnCalcPrivateDevicesize; 
PFND3D10DDI_CREATEDEVICE pfncreatepevice; 
PFND3D19DDI_CLOSEADAPTER pfncloseAdapter; 
PFND3D19_2DDI_GETSUPPORTEDVERSIONS pfnGetSupportedversions; 
PFND3D19_2DDI_GETCAPS pfnGetcaps; 

} D3D10_2DDI_ADAPTERFUNCS; 


Cee 


typedef struct _D3DDDI_ADAPTERCALLBACKS { 
PFND3DDDT_QUERYADAPTERINFOCB pfnQueryadapterInfoCb; 
PFND3DDDI_GETMULTISAMPLEMETHODLISTCB pfnGetMultisampleMethodListcb; 
} D3DDDT_ADAPTERCALLBACKS; 


图 8-294 AdapterFuncs 以 及 AdapterCallbacks 函 数 表 
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填 入 数据 结构 *pKTCallbacks 中 ， 同 时 GPU 驱动 执行 ”派发 进行 优化 处 理 ， 其 是 一 个 图 形 演 染 过 程 的 综合 管 
该 函数 时 也 会 使 用 数据 结构 *pDeviceFuncs 来 填充 所 理 者 。 所 以 其 实现 方式 和 效率 会 对 演 染 性 能 造成 一 定 
有 GPU 了 驱动 实现 的 、 用 于 D3D 调 用 的 泻 染 函数 如 图 ”的 影响 ， 不 过 相 比 GPU 演 染 图 形 所 耗费 的 时 间 来 看 ， 
8-290、 图 8-291 所 示 ) 指针 。 
通过 pfnCreateDeviceO 函 数 ，D3D 和 GPU 用 户 态 Direct3D 为 微软 所 开发 ， 不 开源 ， 为 Windows 操 
驱动 之 间 还 会 交换 其 他 一 些 控制 信息 。 之 后 ，D3D 就 “” 作 系统 所 独占 。 在 PC 游戏 唱主角 的 年 代 ，D3D 势 头 远 
可 以 调用 部 DeviceFuncs 中 对 应 的 泻 染 函数 来 驱动 GPU — 远 盖 过 了 OGL。 但 是 如 今 手机 游戏 大 行 其 道 ， 在 安 卓 
完成 对 应 动作 了 。 
可 以 说 ，D3D 和 0OGL 向 上 层 抽象 了 GPU 的 操作 命 — 机能， 如 果 玩家 追求 高 质量 画面 ， 还 得 PC 游戏 的 画面 
令 为 对 应 的 函数 。 既 然 如 此 ， 如 果 某 个 GPU 开发 出 某 ”表现 力 更 胜 一 筹 。 
种 新 功能 并 有 了 新 命令 ， 而 且 这 个 命令 无 法 利用 之 前 先 来 看 看 OpenGL v4.6 版 本 中 对 上 层 绘图 程序 提 
的 命令 组 合 来 模拟 实现 ， 而 在 D3D/OGL 中 也 没有 实现 。“ 供 的 API 函 数 ， 如 图 8-295、 图 8-296 所 示 。 篇 幅 所 限 ， 
对 应 的 抽象 并 向 上 层 提供 新 接口 ， 那 么 这 项 新 功能 就 — 这 些 API 接 口 的 用 法 就 留 给 大 家 自行 探索 吧 。 此 外 
无 法 得 到 应 用 ， 所 以 GPU 厂 商 有 求 于 D3D/OGL。 反 OpenGL 和 Direct3D 各 自 还 定义 了 大 量 的 数据 结构 ， 也 
之 ， 如 果 D3D/OGL 想 实现 一 些 高 级 绘图 功能 ， 其 可 以 ”不 在 此 列举 了 。 
利用 现 有 的 底层 演 染 命令 接口 模拟 出 来 ， 如 果 不 行 ， 图 8-297 左 侧 所 示 为 两 个 极其 简单 的 OpenGL 程 序 
那么 就 需要 求助 于 GPU 厂商 直接 在 芯片 / 国 件 内 提供 示意， 至 于 更 复杂 的 泻 染 代码 ， 大 家 可 以 自行 了 解 。 
该 项 功能 并 封装 新 的 命令 ， 然 后 D3D/OGL 也 增加 新 接 ”大 致 上 的 流程 是 执行 各 种 设置 ， 然 后 发 出 Draw Call, 
口 ， 以 供 上 层 程序 使 用 。 所 以 ，D3D/OGL 与 GPU 厂 商 。 这 些 设置 包括 : Texture Setup, Material Property. 
之 间 深 度 合作 共 同 推进 图 形 演 染 接口 的 发 展 。 Render State、 Blend Setup、 Pixel Shader、 Vertex 


8.2.10.3 久违 了 OpenGL 与 Direct3D 


绘图 API 导 致 的 开销 占 比较 少 。 


操作 系统 下 ， 则 OGL 独 领 风 骚 。 不 过 ， 受 限于 手机 的 


Shader, Render Target Setup 等 。 图 8-297 右 侧 所 示 为 在 
使 用 Shader 程 序 时 的 关键 API 接 口 及 流程 一 览 。 


直到 现在 ， 冬 瓜 哥 才 引 荐 这 两 位 与 大 家 见面 ， 实 OpenGL 对 上 层 提 供 的 这 些 操作 函数 又 被 称 为 
属 精细 布置 。 之 前 不 方便 露面 ， 或 者 说 遮 遮掩 掩 的 原 — OpenGL 命令。 如 图 8-298 所 示 为 Host 端 绘图 程序 、 
因 在 于 ， 在 你 没有 理解 整个 图 形 泻 染 流 程 ， 以 及 GPU OpenGL API、GPU 了 驱动 (OpenGL Driver) 、GPU 这 
内 部 、 用 户 态 驱动 程序 、 内 核 态 驱动 程序 、 泻 染 命令 四 者 间 的 关系 示意 图 。 
格式 、 下 发 方式 细节 等 种 种 细节 之 前 ， 它 们 登场 对 你 如 图 8-299 和 图 8-300 所 示 为 Direct3D 11 版 本 中 对 
可 能 是 根本 没有 任何 触动 的 。 

这 些 绘图 API 的 作用 不 仅仅 是 将 GPU 的 指令 做 二 图 8-301 所 示 为 Direct3D 体 系 下 Command Buffer 组 
次 封装 呈现 ， 其 还 需要 负责 对 演 染 状态 进行 管理 ， 织 示意 图 。 可 以 看 到 其 中 主要 包含 两 类 命令 : 一 类 是 
对 各 种 数据 结构 进行 定义 、 对 Host 端 内 存 的 分 配 和 管 ”用 于 设置 泻 染 状态 的 命令 (Render State) ， 另 一 类 则 
理 、 对 DMA 内 存 的 管理 ， 以 及 对 上 层 的 调用 、 任 务 ”是 具体 的 绘图 命令 (bCommand) 及 其 对 应 参数 。 


QlActiveShaderProgram 
glActiveTextu' 
SIAttachShader 
er 
glBeginQ: 

glBeginQ: 
SlBeginTransormreedback 


glBindBufferRange 
glBindBuffersBase 
glBindBuffersRange 
glBindFragDataLocation 
glBindFragDatalocationindexed 
glBindFramebuffer 
glBindlmageTecure 
glBindimageTextures 
glBindProgramPipeline 


glBindTexture 
glBindTextures 
glBindTransformFeedback 
glBindVertexArray 
glBindVertexBuffer 


n 
glBlendEquationSeparate 
glBlendFunc 
glBlendFuncSeparate 
glBlendFuncSeparatei 
glBlitFramebuffer 
glBufterData 
glBufferStorage 
glBufferSubData 


glCheckFramebufferStatus 
glClampColor 

glClear 

gIClearBuffer 
glClearBufferData 
glClearBufferSubData 
glClearColor 
gIClearDepth 


glennSyne 


IColorMask 
QIcompileshaqer 
Compressed ње D 


glCompressedTexSublmage1D 
glCompressedTexSublmage2D 
QlcompressedTerSubimage3D 
glCopyBuffers 
QicopyimaqeSubData 
glICopyTexlmage1D 
glICopyTexlmage2D 
glCopyTexSublmage1D 
SICoPyTexSublmage2D 
glCopyTexSublmage3D 
glBindVertexBuffers 
glCreateprogram 
glCreateShader 
glCreateShaderProgram 
glCreateShaderProgramy 
gICullFace 
giDebugMessageCallbark 
IDebugMessageControl 
мет 
glDeleteBuffers 


上 层 提供 的 API 一 览 。 


glDeleteFramebuffers glDrawlransformFeedback Get 
glDeleteProgram glDrawTranstormF eedbackinstanced QiGetaooleanv 
glDeleteProgramPipelines glDrawTransformFeedbackStrear glGetDoublev 
glDeleteQueries GIDrawTransformFeedbackstrearninstanced Ноа 
glDeleteRenderbuffers “sas ВЫ 
ие QlEnableVertexAttribArray glGetActiveAtomicCounterBuffer 
glDeleteSync glEndConditionalRender glGetActiveAtomicCounterBufferiv 
glDeleteTextures glEndQuery GIGetActiveAttrib 
glDeleteTransformFeedbacks glEndQueryIndexed glGetActiveSubroutineName 
glDeleteVertexArrays glEndTransformFeedback glGetActiveSubroutineUniform 
IfenceSync glGetActiveSubroutineUniformName 
glDepthMask glFinish 9IGetActi 
glDepthRange glflush IGetActiveUniformBlock 
glDepthRangeArre glFlushMappedBufferRange glGetActiveUniformBlockName 
glDepthRanqelndexed glFramebufferParameter glGetActiveUniformName 
glDetachShader glFramebufferParameteri glGetActiveUniforms 
alDisable glFramebufferRenderbuffer glGetActiveUniformsiv 
glDisablei glFramebufferTexture glGetAttachedShaders 
QiDissitevestesAñirsñuray glFramebufferTexture1D решш 
glDispatchCompute glFramebufferTexture2D 1СеВийегРагап 
glDispatchComputelndirect glFramebufferTexture3D ое 
glFramebufferTextureLayer glGetBufferSubData 
glIDrawArrayslndirect glFrontFace glGetCompressedTexlmage 
glDrawArraysInstanced glGenBuffers glGetDebugMessageLog 
glDrawArraysinstancedBaselnstance 9lGenerateMipmap glGetError 
IDrawBuffer glGenFramebuffers glGetFragDatalndex 
glDrawButfers glGenProgramPipelines glGetFragDataLocation 
glDrawElements glGenQueries glGetFramebufferAttachmentParameter 
glDrawElementsBaseVertex glGenRenderbuffers glGetFramebufferParameter 
3lDrawElementsIndirect glGensamplers glGetFramebufferParameteriv 
glDrawElementsInstanced glGenTextures glGetintemalformat 
glDrawElementsInstancedBaseInstance GIGenTransformFeedbacks glGetMultisample 
glDrawElementsInstancedBaseVertex gIGenVertexArrays glGetObjectLabel 
9IDrawElementslnstancedBaseVertexBaselnstance glGetObjectPtrlabel 
glDrawRangeElements 9IGetProgram 
glIDrawRangeElementsBaseVertex glGetProgramBinary 
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glGetPrograminfoLog 
glGetPrograminterface 
glGetProgramPipeline 
glGetProgramPipelinelnfoLog 
glGetProgramResource 
glGetProgramResourceLocation 
glGetProgramResourceLocationIndex 
glGetProgramResourcelndex 
glGetProgramResourceName 
glGetProgramStage 
glGetQuery 
glGetQueryindexed 
glGetQueryObject 
glGetRenderbufferParameter 
glGetSamplerParameter 
glGetShader 
glGetshaderlnfoLog 
glGetShaderPrecisionFormat 
glGetShaderSource 

glGetString 

glGetStringi 
glGetSubroutinelndex 
glGetSubroutineUniformLocation 
glGetSync 

glGetTexImage 
glGetTexLevelParameter 
glGetTexParameter 
glGetTransformFeedbackVarying 
glGetUniform 
glGetUniformBlocklndex 
glGetUniformlndices 
glGetUniformLocation 
glGetUniformSubroutine 
glGetVertexAttrib 
glGetVertexAttribPointer 

glHint 

glinvalidateBufferData 


b 


glBegin (GL_POLYGON) ; 


glColor (RED) ; 


glVertex3i(0,0,0); 
glVertex3i(1,0,0); 
glVertex3i(0,1,0); 


glEnd() 


Application 


OpenGL 
Commands’ 


resources 


Handles 
(IDs) 


glinvalidateBufferSubData 
glinvalidateFramebuffer 
glinvalidateSubFramebuffer 
glinvalidateTeximage 
glinvalidateTexSublmage 
gllsBuffer 

gllsEnabled 
gllsFramebuffer 
glisProgram 
glisProgramPipeline 
glisQuery 

glisRenderbuffer 
glisSampler 

glisShader 

glisSync 

glisTexture 
glisTransformFeedback 
glisVertexArray 
gllineWidth 

glLinkProgram 

glLogicOp 

glMapBuffer 
glMapBufferRange 
glMemoryBarrier 
glMinSampleShading 
glMultiDrawArrays 
glMultiDrawArraysindirect 
glMultiDrawElements 
glMultiDrawElementsBaseVertex 
glMultiDrawElementsindirect 
glObjectLabel 
glObjectptrLabel 
glPatchParameter 
glPauseTransformFeedback 
glPixelStore 
9lPointParameter 


glPointSize 


glBegin (GL_POLYGON) ; 
glColor (RED) ; 
glVertex3i (0,0,0); 
91Со1ог (BLUE) ; 
glVertex3i (1,0,0); 
glColor (BLUE) ; 
glVertex3i (0,1,0); 

glEnd() 


OpenGL 
Driver 


glPolygonMode 
glPolygonOffset 
glPopDebugGroup 
glPrimitiveRestartindex 
glProgramBinary 
glProgramParameter 
glProgramUniform 
glProgramUniformMatrix 
glProvokingVertex 
glPushDebugGroup 
glQueryCounter 
glReadBuffer 

glReadPixels 
glReleaseShaderCompiler 
glRenderbufferStorage 
glRenderbufferStorageMultisample 
glResumeTransformFeedback 
glSampleCoverage 
glSampleMask 
glSamplerParameter 
9lScissor 

glScissorArray 
glScissorindexed 
glShaderBinary 
glShaderSource 
glShaderStorageBlockBinding 
glStencilFunc 
9lStencilFuncSeparate 
9lStencilMask 
glStencilMaskSeparate 
glStencilOp 
glStencilOpseparate 
glTexBuffer 
glTexBufferRange 
9Техитаде О 
9lTeximage2D 
glTexImage2DMultisample 


glTeximage3D 
glTeximage3DMultisample 
glTexParameter 
glTexStorage1D 
glTexStorage2D 
glTexStorage2DMultisample 
glTexStorage3D 
glTexStorage3DMultisample 
glTexSublmage1D 
glTexSublmage2D 
glTexSublmage3D 
glTextureView 
glTransformFeedbackVaryings 
glUniform 
glUniformBlockBinding 
glUniformMatrix 
glUniformSubroutines 
glUnmapBuffer 
glUseProgram 
glUseProgramStages 
glValidateProgram 
glValidateProgramPipeline 
glVertexAttrib 
glVertexAttribBinding 
glVertexAttribDivisor 
glVertexAttribrormat 
glVertexAttriblFormat 
glVertexAttriblPointer 
glVertexAttribLFormat 
glVertexAttribLPointer 
glVertexAttribPointer 
glVertexBindingDivisor 
glViewport 
glViewportArray 
glViewportindexed 
glWaitSync 


Vertex Shader 


glCreateShader 


Program 


glCreateProgram 


giShaderSource = 


glCompileShader 


Fragment Shader 


glAttachShader |< 


glCreateShader 


T 


glLinkProgram 


glShaderSource s= 


sa ЕЯ 


glUseProgram 


glCompileShader 


pointers 


Push-Butfer 


Vertex Puller (IA) 


(т; ation) 
Tessellator 
ES (Tessella 


metry Shal 


ment Ops 
Framebuffer 
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GetDatasize GetFeatureLevel Begin FinishCommandlist OMsetpeptnstencıiistate Leave 
GetDesc GetlmmediateContext ClearDepthStencilView Flush OMSetRenderTargets — SetMultithreadProtected 
GetDesc1 GetPrivateData ClearRenderTargetView СепегаіеМірх OMSetRenderTargetsAndUnorderedAccessViews 
GetDesc2 OpenSharedResource ClearState GetContextflags PSGetConstantBuffers 。 DiscardResource 
GetContextFlags SetExceptionMode ClearUnorderedAccessViewUint GetData PSGetSamplers DiscardView 
CheckCounter SetPrivateData ClearUnorderedAccessViewFloat GetPredication PSGetShader DiscardView1 
CheckCounterinfo SetprivateDatalnterface CopyResource GetResourceMinLOD — PSGetShaderResources DSGetConstantBuffers1 
CheckFeatureSupport CreateBlendState1 CopyStructureCount GetType PSSetConstantBuffers DSSetConstantBuffers1 
CheckFormatSupport CreateDeferredContext1 CopySubresourceRegion GSGetConstantBuffers PSSetSamplers GSGetConstantBuffers1 
CheckMultisampleQualityLevels CreateDeviceContextState CSGetConstantBuffers GSGetSamplers PSSetShader GSSetConstantBuffers1 
CreateBlendState CreateRasterizerState1 CSGetSamplers GSGetShader PSSetShaderResources HSGetConstantBuffers1 
CreateBuffer GetlmmediateContext1 CSGetshader GSGetshaderResources ResolveSubresource — HSSetConstantBuffers1 
CreateClassLinkage OpenSharedResource1 CSGetShaderResources GSSetConstantBuffers 。 RSGetScissorRects PSGetConstantBuffers1 
CreateComputeShader OpenSharedResourceByName _ CSGetUnorderedAccessViews GSSetSamplers RSGetState PSSetConstantBuffers1 
CreateCounter CheckMultisampleQualityLevels1 CSSetConstantBuffers GSSetShader RSGetViewports VSGetConstantBuffers1 
CreateDeferredContext CreateDeferredContext2 CSSetSamplers GSSetShaderResources RSSetScissorRects VSSetConstantBuffers1 
CreateDepthStencilState GetlmmediateContext2 CSSetshader HSGetConstantBuffers RSSetState SwapDeviceContextState 
CreateDepthStencilView GetResourceTiling CSSetShaderResources HSGetSamplers RSSetViewports UpdateSubresource1 
CreateDomainShader CreateDeferredContext3 CSSetUnorderedAccessViews 。 HSGetShader SetPredication BeginEventint 
CreateGeometryShader CreateQuery1 Dispatch HSGetShaderResources SetResourceMinLOD — Copyriles 
CreateGeometryShaderWithStreamOutput Dispatchindirect HSSetConstantBuffers  SOGetTargets CopyTileMappings 
CreateHullShader CreateRasterizerState2 Draw HSSetSamplers SOSetTargets EndEvent 
CreatelnputLayout CreateRenderTargetView1 DrawAuto HSSetshader Unmap IsAnnotationEnabled 
CreatePixelShader CreateShaderResourceView1 Drawindexed HSSetShaderResources UpdateSubresource  ResizeTilePool 
CreatePredicate CreateTexture2D1 Drawindexedinstanced IAGetIndexBuffer VSGetConstantBuffers — SetMarkerint 
CreateQuery CreateTexture3D1 DrawIndexedInstancedIndirectIAGetlnputLayout VSGetSamplers TiledResourceBarrier 
CreateRasterizerState CreateUnorderedAccessView1 — Drawinstanced IAGetPrimitiveTopology VSGetShader UpdateTileMappings 
CreateRenderTargetView — GetlmmediateContext3 Drawinstancedindirect IAGetVertexBuffers  VSGetShaderResources UpdateTiles 
CreateSamplerState ReadFromSubresource DSGetConstantBuffers IASetIndexBuffer VSSetConstantBuffers — Flushl 
CreateShaderResourceView WriteToSubresource DSGetSamplers IASetInputLayout VSSetsamplers GetHardwareProtectionState 
CreateTexture1D RegisterDeviceRemovedEvent DSGetShader lASetPrimitiveTopology VSSetShader SetHardwareProtectionState 
CreateTexture2D UnregisterDeviceRemoved DSGetShaderResources IASetVertexBuffers VSSetShaderResources Signal 
CreateTexture3D CreateFence DSSetConstantBuffers Map ClearView Wait 
CreateUnorderedAccessView OpenSharedFence DSSetSamplers OMGetBlendState CopySubresourceRegion1 CreateSharedHandle 
CreateVertexShader GetDevice DSSetShader OMGetDepthStencilState CSGetConstantBuffers1 GetCompletedValue 
GetCreationFlags GetPrivateData DSSetShaderResources OMGetRenderTargets CSSetConstantBuffersI 。 SetEventOnCompletion 
GetDeviceRemovedReason SetPrivateData End OMGetRenderTargetsAndUnorderedAccessViews Enter — 
GetExceptionMode SetprivateDatalnterface ExecuteCommandList OMSetBlendState GetMultithreadProtected 
图 8-299 Direct3D 11 版 本 中 对 上 层 提供 的 API 一 览 (1) 
AddApplicationMessage GetFeatureMask GetDesc GetThreadGroupSize 
AddMessage GetPresentPerRenderOpDelay GetFunctionParameter GetVariableByName 
AddRetrievalFilterEntries GetSwapChain GetResourceBindingDesc IsSampleFrequencyShader 
AddStorageFilterEntries ReportLiveDeviceObjects GetResourceBindingDescByName GetVariableByIndex 
ClearRetrievalFilter SetFeatureMask GetVariableByName GetVariableByName 
ClearStorageFilter SetPresentPerRenderOpDelay GetFunctionByIndex GetBaseClass 
ClearStoredMessages SetSwapChain AddClipPlaneFromCButfer GetDesc 
GetBreakOnCategory ValidateContext Link о GetlnterfaceByIndex 
GetBreakOnID ValidateContextForDispatch Uselibrary GetMemberTypeBylndex 
GetBreakOnSeverity GetUseRef Createlnstance GetMemberTypeByName 
GetMessage SetUseRef BindConstantBuffer GetMemberTypeName 
GetMessageCountLimit SetShaderTrackingOptions BindConstantBufferByName GetNuminterfaces 
GetMuteDebugOutput SetShaderTrackingOptionsByType — BindResource GetSubType 
GetNumMessagesAllowedByStorageFilter GetEvictionPriority BindResourceAsUnorderedAccessView Implementsinterface 
GetNumMessagesDeniedByStorageFilter Getfype BindResourceAsUnorderedAccessViewByName IsEqual 
GetNumMessagesDiscardedByMessageCountLimit SetEvictionPriority SindResourcaðyName IsOfType 
GetNumStoredMessages GetResource BindSampler GetBuffer 
GetNumStoredMessagesAllowedByRetrievalFilter D3D11CalcSubresource BindSamplerByName GetinterfaceSlot 
GetRetrievalFilter GetClasstinkage BindUnorderedAccessView method GetType 
GetRetrievalFilterStackSize GetDesc BindUnorderedAccessViewByName method — GetlnitialRegisterContents 
GetStoragefFilter GetinstanceName GetBitwiselnstructionCount GetReadRegister 
GetStorageFilterStackSize GetTypeName GetConstantBufferBylndex GetStep 
PopRetrievalFilter CreateClassinstance GetConstantBufferByName GetTraceStats 
PopStorageFilter GetClassinstance GetConversioninstructionCount GetWrittenRegister 
PushCopyOfRetrievalFilter D3D11CreateDevice GetDesc PSSelectStamp 
PushCopyOfstorageFilter D3D11CreateDeviceAndSwapChain — GetGSInputPrimitive ResetTrace 
PushEmptyRetrievalFilter CallFunction GetInputParameterDesc TraceReady 
PushEmptyStorageFilter CreateModulelnstance GetMinFeatureLevel CreateShaderTrace 
PushRetrievalFilter GenerateHlsl GetMovinstructionCount D3DDisassemble11Trace 
PushStorageFilter GetLastError GetMovcinstructionCount 
SetBreakOnCategory PassValue method GetNuminterfaceSlots 
SetBreakOnID PassValueWithSwizzle GetOutputParameterDesc 
SetBreakOnSeverity SetinputSignature GetPatchConstantParameterDesc 
SetMessageCountlimit SetOutputSignature GetRequiresFlags method 
SetMuteDebugOutput GetConstantBufferByIndex GetResourceBindingDesc 
SetTrackingOptions GetConstantBufferByName GetResourceBindingDescByName 


图 8-300 ”Direct3D 11 版 本 中 对 上 层 提 供 的 API 一 览 (2) 


1995 年 ， 微 软 收购 了 于 
RenderMorphics 公 司 的 名 为 RealityLab 的 3D 绘 图 API 
(当时 已 经 是 2.0 版 本 ) ， 基 于 该 产品 做 后 续 开发 ， 
并 在 1996 年 将 其 集成 到 了 Windows95 操 作 系统 中 ， 推 
出 Direct3D 2.0 以 及 3.0 版 本 。1997 年 微软 推出 Direct3D 


5.0 版 本 。 


1998 年 ， 微 软 发 布 了 Direct3D 6.0 接 口 。 其 支持 
Multitexturing 和 Stencil Buffer， 针 对 Intel 的 x87、SSE 


以 及 AMD 的 3DNow! 指 令 集 优化 ， 


1992 年 成 立 的 


从 而 在 顶点 运算 方 


面 获 得 性 能 提升 (Direct3D 6.0 时 代 的 显卡 还 不 支持 硬 
件 T&L， 只 能 在 CPU 一 端 进行 顶点 运算 。 这 也 是 AMD 
的 3DNow! 指 令 集 命名 的 含义 。 这 些 指令 集 本 质 上 都 
是 一 些 向 量 运算 和 增强 的 浮 点 运算 类 指令 ) ， 引 入 对 
纹理 压缩 和 四 凸 贴图 功能 的 支持 。 


1999 年 微软 发 布 了 Direct3D 7.0 接 口 。 该 接口 支 


持 了 当时 显卡 上 的 硬件 T&L 功 能 ， 同 时 支持 将 Vertex 
Buffer 分 配 到 显存 中 ， 这 一 特性 让 Direct3D API 的 性 能 
第 一 次 超越 了 OpenGL。 


`pDDCommands->IpGbi->tpVidMem 
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Sample 
Command Bufler 


= D3DDP2OP_RENDERSTATE 


= D3DRENDERSTATE_FILLMODE 


RenderState 


dwState = D3DFILL_SOLID 
RenderState = D3DRENDERSTATE_SHADEMODE 
dwState = D3DSHADE_GOURAUD 
bCommand = D3DDP2OP_TRIANGLELIST 
wPrimitiveCount =2 

“узап =0 

bCommand = D3DDP2OP_RENDERSTATE 
wStateCount =1 

RenderSiate 

dwState = D3DFILL_POINT 
bCommand = D3DDP2OP_LINELIST_IMM 
wPrimitive =3 


мој 
Л 
ма 
мз 
ма 
М9 


Model 2.0。 在 随后 的 Direct3D 9.0с Ж, Shader 
Model 升 级 到 3.0 版 本 。 不 同 的 Shader Model 的 规格 见 
图 8-271 所 示 。 

目前 最 新 版 本 为 Direct3D 12， 对 应 的 Shader 
Model 版 本 为 6.0。 如 图 8-302 所 示 为 不 同时 代 的 
DirectX 版 本 体现 出 来 的 画 质 对 比 。 值 得 一 提 的 是 ， 
Direct3D API 只 是 释放 了 GPU 的 泻 染 能 力 和 命令 接 
口 ， 其 本 身 并 不 负责 实际 的 泻 染 工 作 。 所 以 ， 画 质 
提升 的 本 质 并 不 取决 于 Direct3D， 而 取决 于 可 提供 
更 高 算 力 和 拥有 更 多 功能 特性 的 GPU， 以 及 程序 员 
编写 的 功能 更 丰富 效率 更 高 的 Shader 程 序 ，Direct3D 
API 只 是 为 这 些 流程 提供 了 方便 ， 让 程序 员 开发 起 来 
更 容易 。 

基于 Direct3D 以 及 OpenGL 的 原始 API， 人 们 封装 
出 了 一 些 函数 库 ， 以 及 实现 了 一 些 常用 的 功能 。 这 些 
函数 被 俗称 为 Utility (工具 箱 ) ， 那 些 以 D3DX 以 及 
glut (OpenGL Unitility) 开头 的 函数 名 都 是 由 该 函数 
库 封 装 出 来 的 。 比 如 D3DXCreateTeapot( ) 函 数 ， 其 直 


<end of valid command data> 


= D3DRENDERSTATE_FILLMODE | 


<end of command buffer> 


图 8-301 Direct3D 体 系 下 Command Buffer 组 织 示意 图 


2000 年 微软 发 布 了 Direct3D 8.0 版 本 。 该 版 本 第 一 
次 对 GPU 内 部 可 编程 的 泻 染 管线 进行 了 支持 ， 也 就 是 
支持 对 Shader 程 序 的 编译 、 管 理 和 下 发 。 不 过 ， 只 能 
用 汇编 着 色 语 言 来 编写 Shader， 当 时 还 没有 发 布 高 级 
着 色 语言 。Direct3D 8.0 版 本 对 应 着 Pixel Shader 1.1 以 
及 Vertex Shader 1.1， 两 者 合 称 Shader Model 1.1。 支 持 
可 编程 管线 让 D3D 又 一 次 超越 了 OpenGL， 同 时 期 的 
OpenGL 版 本 只 支持 固定 管线 演 染 。 

2002 年 微软 发 布 了 Direct3D 9.0 版 本 。 该 版 本 中 
第 一 次 引入 了 高 级 着 色 语 言 HLSL， 释 放 了 程序 员 编 
写 更 强 Shader 的 生产 力 。 该 版 本 对 GPU 在 顶点 运算 阶 
段 访 问 纹理 和 纹理 缓存 提供 了 支持 。 在 这 之 前 ，GPU 
在 处 理 顶 点 时 无 法 访问 纹理 ， 我 们 在 8.2.7 节 中 介绍 
过 的 纹理 动画 也 就 无 法 实现 。 该 版 本 中 对 应 了 Shader 


Quake2 Direct3D 5.0 1997 
图 8-302 不 同时 代 的 DirectX 版 本 体现 出 来 的 画 质 对 比 


接 创建 一 个 茶壶 模型 ， 而 Direct3D 原 始 API 中 并 不 会 
包含 这 种 上 层 功能 。 当 然 ， 你 可 以 亲自 输入 茶壶 模型 
各 个 顶点 的 坐标 来 生成 茶壶 。 

如 图 8-303 所 示 ，D3DX11 版 本 工具 箱 中 提供 了 
HLSL 语 言 编译 器 ， 并 提供 了 D3DX11CompileFromFile0 
接口 。 绘 图 程序 调用 该 接口 先 将 HLSL 翻 译 成 汇 
编 着 色 语 言 ， 然 后 将 编译 好 的 汇编 语言 文件 通过 
D3D11 原 始 API 中 用 于 创建 Shader 程 序 的 接口 比如 
CreatePixelShader0 传 递 给 D3D。D3D 则 会 调用 GPU 用 
户 态 驱动 提供 的 对 应 接口 将 该 Shader 程 序 传递 给 GPU 
用 户 态 驱动 后 者 再 编译 成 GPU 机 器 指令 语言 。 如 前 文 
所 述 ，Direct3D 8.0 版 本 不 提供 HLSL 语 言 支持 ， 用 户 
只 能 自己 手动 写 汇编 着 色 语言 。 

在 历史 的 大 潮 中 ， 曾 经 出 现 过 多 种 3D 绘 图 API， 
它们 包括 : S3d (S3)、Matrox Simple Interface、 
Creative Graphics Library, C Interface (ATI), SGL 
(PowerVR)、NVLIB (Nvidia), Redline (Rendition), 
以 及 曾经 的 王者 Glide (3dfx) ， 但 它们 都 早已 
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HRESULT D3DX11CompileFromFile( 


LPCTSTR psrcFile, 


const 03010_ЅНАОЕВ_МАСВО *pDefines, 


LPD3D1@INCLUDE pInclude, 
LPCSTR PFunctionName, 
LPCSTR pProfile, 

UINT Flagsi, 

UINT Flags2, 
ID3DX11ThreadPump *pPump, 
Io3pieBlob **ppShader, 
тозозөв1оь **ppErrorMsgs, 
HRESULT *pHResult 


HRESULT CreatePixelShader( 


const void *pShaderBytecode, 
SIZE_T BytecodeLength, 
ID3D11ClassLinkage *pClassLinkage, 
ID3D11PixelShader **ppPixelShader 


图 8-303 ”D3DX 工 具 库 提供 了 HLSL 编 译 器 


提示 * 
在 D3D 7.0 版 本 之 前 ， 其 性 能 和 易 用 性 都 广 受 诉 
病 ， 那 时 候 游 戏 开发 者 钟情 于 Glide API 和 OpenGL， 
虽然 那 时 候 OGL 也 不 怎么 样 。 当 时 著名 的 游戏 Quake 
系列 只 支持 OGL， 其 原因 就 是 当时 的 D3D 太 差劲 。 
而 Quake 又 被 广泛 作为 显卡 的 评测 跑 分 游戏 。 所 以 
D3D 以 及 D3D 阵 营 的 显卡 厂商 都 比较 郁闷 。 一 直到 
D3D 7.0 出 现 ， 配 套 支持 硬件 T&L 概 念 ， 加 上 自身 也 
的 确 给 力 ， 局势 发 生 了 扭转 。 到 了 D3D 8.0 时 代 ， 
D3D 8.0 支 持 可 编程 Shader，OGL 便 开始 没落 了 ， 后 
者 直到 3 年 后 的 OGL 2.0 版 本 才 支 持 该 功能 。OGIL 发 
展 缓慢 的 原因 ， 主 要 是 因为 OGL 为 公开 的 标准 ， 早 
期 由 ARB (OpenGL Architecture Review Board ) 组 织 
(由 Nvidia、AII、Intel、IBM、SGI、 微 软 等 组 成 ) 
共同 维护 。 每 个 厂商 GPU 硬件 的 新 特性 被 作为 OGL 
Extension 扩 展 指 令 库 功能 加 入 到 OGL 中 ， 所 以 只 有 当 
所 有 厂商 达成 一 致 ， 比 如 多 数 厂 商都 已 经 实现 类 似 功 
能 后 ， 该 功能 才 会 被 加 入 到 下 一 个 版 本 的 OGL 正 式 核 
心 库 中 ， 众 口 难 调 ， 自 然 发 展 缓慢 。 后 来 微软 退出 了 
这 个 坑 ， 自 己 搞 了 Direct3D API， 并 在 自家 的 Windows 
95 操 作 系 统 中 选择 不 支持 OGL (之 前 的 WinNT 3.51 
中 集成 了 OGL 库 ) ， 只 支持 自家 的 D3D 3.0， 导 致 业 
界 怨声载道 。 同 时 由 于 当时 著名 游戏 DOOM、Quake 
系列 的 开发 者 公开 对 D3D 的 性 能 和 易 用 性 表示 强烈 
不 满 ， 导 致 游戏 开发 界 毫 不 待 见 D3D， 微 软 被 迫 在 
Win95 OSR2 版 本 中 重新 支持 OGL。1999 年 OGL 的 创 
始 者 SGI 宣 布 与 微软 合作 开发 Ferihant API， 该 API 的 初 
启 是 在 Windows 系 统 中 将 D3D 和 OGIL 统 一 ， 吸 收 各 自 
的 优点 并 加 入 新 功能 。 然 而 实际 上 ， 在 合作 过 程 中 ， 


微软 的 做 法 让 SGI 感 觉 到 它 只 是 想 把 OGL 的 优点 并 入 
D3D 从 而 过 河 拆 桥 ，SGI 遂 撤 出 了 该 项 目 。 不 过 ， 
木 已 成 和 月， 吸收 了 OGL 功 力 的 D3D 发 布 了 7.0 版 本 ， 
开始 腾飞 。 一 直到 2006 年 ，OGL 被 转交 给 Khronos 
Group 独立 维护 ， 才 逐渐 追赶 了 上 来 。 但 是 这 已 经 
无 力 回 天 ， 多 数 图 形 开 发 者 都 用 惯 了 D3D， 而且 就 
目前 来 看 ，OGL 在 易 用 性 和 兼容 性 方面 还 是 有 所 欠 
ik, 并且 在 开发 配套 工具 的 支持 上 远 不 及 D3D。 


另外 ，D3D 和 OGL 并 没有 规定 必须 采用 GPU 硬 件 
来 加 速 演 染 ， 人 们 完全 可 以 实现 一 个 软 泻 染 器 ， 其 提 
供与 GPU 用 户 态 驱 动 同样 功能 的 角色 ， 将 OGL 和 D3D 
的 所 有 绘制 请 求 接手 之 后 ， 并 不 翻译 成 GPU 命令 ， 而 
是 直接 利用 CPU 来 运算 ， 并 直接 将 泻 染 好 的 像素 值 写 
入 显卡 映射 到 Host 全 局 地 址 空间 中 的 Frame Buffer 中 。 
在 泻 染 简单 的 图 形 时 ， 这 种 方式 的 速度 还 可 以 接受 ， 
但 是 在 泻 染 复杂 图 形 和 特效 时 就 会 非常 慢 。 

D3D 与 OpenGL 的 一 个 最 大 架构 差别 是 ，D3D 体 
系 下 ，D3D 运 行 库 负责 响应 并 安排 上 层 应 用 的 绘制 请 
求 调 用 ， 然 后 再 与 GPU 用 户 态 驱动 程序 通信 ， 而 在 
OGL 体 系 下 ， 上 层 程序 的 绘图 请 求全 部 由 GPU 内 核 态 
驱动 负责 响应 ， 由 于 不 同 厂商 的 GPU 驱动 行为 不 同 ， 
所 以 OGI 在 兼容 性 方面 并 不 如 D3D。 


8.2.10.4 Windows 图 形 软件 栈 


如 图 8-304 所 示 ，Windows 的 WDDM (Windows 
Display Driver Model) 驱动 架构 引入 了 更 多 的 中 间 
层 。GPU 的 用 户 态 驱动 不 再 使 用 ioctt 方 式 与 GPU 内 核 
态 驱动 通信 ， 而 是 只 与 Direct3D Runtime 库 通信 。 后 
者 再 与 位 于 内 核 中 的 Microsoft DirectX graphics kernel 


大话 计算 机 一 一 计算 机 系统 底层 架构 原理 极限 剖析 


subsystem (Dxgkrml.sys) 模 块 通信 ，Dxsgkrmlsys 模 块 再 
与 GPU 内 核 态 驱动 通信 。Direct3D 10 版 本 又 引入 了 
DXGI 层 ， 该 层 的 目的 是 将 一 些 多 个 版 本 Direct3D 中 底 
层 公 共 功 能 抽取 出 来 单独 实现 。 
8-305 所 示 为 GPU 内 核 态 驱动 必须 实现 并 向 
Dxgkrml.sys 模 块 注册 的 函数 一 览 。 
8-306 所 示 为 Dxgkml.sys 模 块 向 GPU 内 核 态 驱动 
提供 的 回调 函数 一 览 。 

图 8-307 所 示 为 WDDM 了 驱动 模式 下 一 个 基本 交互 
过 程 实例 。 


8.2.11 3D 图 形 加 速 卡 的 辉煌 时 代 
本 节 我 们 简要 介绍 一 下 计算 机 图 形 加 速 硬件 的 发 


展 历史 。 
8.2.11.1 街机 /家 用 机 /手机 上 的 GPU 


20 世 纪 七 八 十 年 代 ， 家 用 电脑 还 没有 广泛 普 
及 ， 但 是 出 现 了 投 币 的 街机 游戏 机 (Arcade Game 
Machine) ， 供 人 们 娱乐 ， 运 行 3D 游 戏 无 疑 是 街机 在 
当时 的 一 大 吸引 力 ， 如 图 8-308 所 示 。 

当时 这 些 街 机 游戏 机 内 部 使 用 了 分 立 的 单 板 ， 
包括 CPU 板 、ROM 板 (用 于 存放 游戏 程序 ) 、 显 
卡 板 等 。 如 图 8-309 所 示 为 SEGA Model 2 街机 系统 
单 板 实物 图 。 其 “显卡 ” 单 板 采用 了 5 片 Fujitsu 的 
TGPMB86233 DSP 运 行 固件 泻 染 程序 来 进行 顶点 、 栅 
格 化 和 像素 计算 。 其 实 这 个 显卡 本 身 是 可 编程 的 ， 只 
不 过 各 种 接口 、API 都 是 私有 的 。 


DireciX graphics Kemel subsystem (Dxgkrri sys), which Includes 
display port driver, video memory manager, and GPU scheduler 


Display miniport driver 


Kemel-mode Driver, 
Hardware 
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DxgkDdiAcquireSwizzlingRange DxgkDdiDispatchloRequest 
DxgkDdiAddDevice DxgkDdiDpcRoutine 
DxgkDdiBuildPagingBuffer DxgkDdiEnumVidPnCofuncModality 


DxgkDdipresent 
DxgkDdiQueryAdapterInfo 
DxgkDdiQueryChildRelations 


DxgkDdiSetPointerPosition 
DxgkDdiSetPointerShape 
DxgkDdiSetPowerComponentFState 


DxgkDdiCalibrateGpuClock DxgkDdiEscape DxgkDdiQueryChildStatus DxgkDdiSetPowerState 
DxgkDdiCancelCommand DxgkDdiFlipOverlay DxgkDdiQueryCurrentFence DxgkDdiSetRootPageTable 
DxgkDdiCloseAllocation DxgkDdiFormatHistoryBuffer DxgkDdiQueryDependentEngineGroup DxgkDdiSetVidPnSourceAddress 
DxgkDdiCollectDbgInfo DxgkDdiGetChildContainerid DxgkDdiQueryDeviceDescriptor DxgkDdiSetVidPnSourceVisibility 
DxgkDdiCommitVidPn DxgkDdiGetNodeMetadata DxgkDdiQueryEngineStatus DxgkDdiStartDevice 
DxgkDdiControlEtwLogging — DxgkDdiGetRootPageTableSize DxgkDdiQuerylnterface DxgkDdiStopCapture 
DxgkDdiControllnterrupt DxgkDdiGetscanLine DxgkDdiQueryVidPnHWCapability DxgkDdiStopDevice 
DxgkDdiCreateAllocation DxgkDdiGetStandardAllocationDriverData DxgkDdiRecommendFunctionalVidpn DxgkDdiStopDeviceAndReleasePostDisplayOwnership 
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DxgkDdiCreateOverlay DxgkDdiLinkDevice DxgkDdiReleaseSwizzlingRange DxgkDdiSystemDisplayEnable 
DxgkDdiCreateProcess DxgkDdiMapCpuHostAperture DxgkDdiRemoveDevice DxgkDdiSystemDisplayWrite 
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DxgkDdiDestroyContext DxgkDdiOpenAllocation DxgkDdiRenderKm DxgkDdiUpdateActiveVidPnPresentPath 
DxgkDdiDestroyDevice DxgkDdiPatch DxgkDdiResetDevice DxgkDdiUpdateOverlay 
DxgkDdiDestroyOverlay DxgkDdiPowerRuntimeControlRequest DxgkDdiResetEngine DxgkDdiRestartFromTimeout 
DxgkDdiDestroyProcess DxgkDdiPreemptCommand DxgkDdiResetFromTimeout DxgkDdiSetDisplayPrivateDriverFormat 
DxgkDdiSetPalette 


图 8-305 GPU 内 核 态 驱动 必须 实现 并 向 Dxgkmlsys 模 块 注册 的 函数 一 览 


Dxgklnitialize 
DxgklnitializeDisplayOnlyDriver 


DxgkCbGetHandleParent 
DxgkCblndicateChildStatus 


DxgkCbAcquirePostDisplayOwnership DxgkCblsDevicePresent 


DxgkCbCompleteFStateTran: 


DxgkCbEnumHandleChildren 
DxgkCbEvalAcpiMethod 
DxgkCbExcludeAdapterAccess 
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ion DxgkCbLogEtwEvent 
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DxgkCbMapMemory 
DxgkCbNotifyDpc 
DxgkCbNotifyInterrupt 
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DxgkCbPresentDisplayOnlyProgress 
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图 8-306 ”Dxgkrmlsys 模 块 向 GPU 内 核 态 驱动 提供 的 回调 函数 一 览 
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提示 > 


街机 的 显卡 比 PC 显 卡 发 展 得 早 。SEGA Model 1 
系统 在 1992 年 推出 ， 届 时 其 已 经 支持 了 图 形 泻 染 全 
秀 载 ， 而 PC 领域 在 1999 年 才 实 现 硬件 T&L。 


看 完了 街机 ， 再 来 看 看 家 用 游戏 机 CConsole 
Game Machine) 。 截 至 当前 ， 市 场 上 最 流行 的 


家 用 游戏 机 为 微软 出 品 的 XboxOne、 索 尼 出 品 的 
PlayStation4， 以 及 任天堂 的 Wii。 如 图 8-310 所 示 为 
XboxOne 的 单 板 架构 及 其 主 芯片 的 架构 示意 图 。 


如 图 8-311 所 示 为 XboxOne 主 芯片 的 架构 详 图 。 该 
芯片 集成 了 两 颗 AMD Jaguar 架 构 CPU 以 及 一 片 AMD 
的 定制 GPU， 为 全 AMD 方 案 。 

如 图 8-312 所 示 为 早期 的 N64 家 用 戏 机 的 架构 示 
意图 。 其 CPU 使 用 了 NEC 的 某 款 型 号 。 图 中 的 RCP 为 
Fujitsu 在 1997 年 推出 的 Pinolite 型 GPU 〈 该 GPU 也 是 个 
人 电脑 领域 第 一 款 支持 硬件 T&L 的 GPU， 只 不 过 没有 
被 广泛 用 于 PC 显卡 中 ， 所 以 鲜 为 人 知 ，PC 领 域 则 是 
在 两 年 后 才 在 GeForce 256. ATI Radeon 75000 53 
Savage3D 显 卡 中 支持 ) ， 其 架构 如 图 右 侧 所 示 。 

我 们 再 来 看 看 手机 。 如 图 8-313 所 示 为 某 用 于 手 


图 8-308 


街机 和 街机 游戏 


CPU Board 


ROM Board 


Video Board 


图 8-309 SEGA Model 2 街机 系统 单 板 实物 图 
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P- S billion transistors 
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on chip 

+ Power islands and 
dock gating to 2.5% 
of full power 


图 8-310 ”XboxOne 的 单 板 架构 及 其 主 芯片 的 架构 示意 图 
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AMD Jaguar Architecture 


图 8-311 XboxOne 主 芯片 的 架构 详 图 
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图 8-312 早期 的 N64 掌上 游戏 机 的 架构 示意 图 
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Sample Applications 
Application (a) (b) 
Vertex count 4690 |1717 
Polygon count 2134 |973 


Average pixel count | 6.3 49.8 


per polygon 


Power Consumption Performance 

(a) 6) (а) (b) 
Pipeline mode |66 mW 66 mw 8.5 fps 19.1 fps 
Step mode 38 mw 38 mw 8.0 fps 17.3 fps 


Ї 8-313 ” 某 用 于 手机 的 GPU 架构 图 
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机 的 GPU (= Z3D) 架构 图 ， 相 信 大 家 一 眼 就 能 
够 理解 该 架构 了 ， 其 中 对 应 的 名 词 大 家 已 经 足够 熟悉 
了 。 手 机 对 功 耗 的 要 求 非常 高 ， 如 图 右 侧 所 示 为 一 些 
3D 泻 染 场景 下 的 功 耗 测试 。 

可 以 看 到 ， 不 管 是 街机 家 用 机 还 是 手机 ， 对 于 图 
形 泻 染 ， 它 们 都 遵循 我 们 前 文中 介绍 过 的 基本 演 染 管 
线 流程 ， 只 不 过 具体 实现 的 方式 有 所 不 同 ， 架 构 有 所 
不 同 。 看 完了 游戏 机 领域 ， 我 们 再 来 看 看 专业 领域 以 
及 PC 领域 的 图 形 泻 染 系统 。 


8.2.11.2 SGI Onyx 超 级 图 形 加 速 工作 站 


Silicon Graphics (后 名 Silicon Graphics 
Internationale, SGI) 公司 于 1981 年 创立 ， 为 计算 机 
图 形 领 域 知 名 厂商 ， 著 名 的 3D 建 模 软件 Maya 就 是 该 
公司 杰作 。 该 公司 主要 提供 针对 图 形 演 染 加 速 领域 的 
高 端 整 体系 统 〈 图 形 工作 站 ， 用 于 建筑 、 广 告 动 画 等 
专业 绘图 领域 ) ， 后 续 也 推出 了 用 于 通用 计算 的 超 
级 计算 机 平台 (第 6 章 介绍 过 的 Origin 2000 系 统 ) 。 
可 以 体会 到 ， 图 形 计算 本 身 的 确 已 经 是 一 种 超级 计 
算 了 ， 它 需要 庞大 的 ALU 单 元 /核心 数量 并 行 计算 。 
我 们 在 第 9 章 会 详细 介绍 超级 计算 /并 行 计算 以 及 超 
级 计算 机 。 我 们 先 来 看 一 下 SGI 公 司 在 1996 年 推出 的 
InfiniteReality 运 算 单元 ， 从 名 字 就 可 以 判断 出 ， 其 用 
于 表现 真实 世界 的 3D 图 形 ， 也 就 是 一 套 3D 图 形 演 染 
加 速 系统 。 

如 图 8-314 左 侧 所 示 ，SGI InfiniteReality 由 
三 大 模块 组 成 : 含有 Geometry Engine (GE) 的 
Geometry Board、 含 有 1 个 Fragment Generator 和 80 个 


Image Engine 以 及 大 量 存 储 器 的 Raster Memory Board 
(RM) ， 以 及 Display Generator Board。 每 个 模块 单 
板 可 以 存在 多 份 以 增加 并 行 性 。 

图 8-314 中 间 上 部 所 示 为 一 个 GE 内 部 的 结构 ， 内 
含 三 个 SIMD 核 心 ， 每 个 核心 内 部 又 有 一 个 浮 点 乘法 
运算 器 和 一 个 浮 点 通用 ALU， 共 享 1KB 的 寄存 器 堆 。 
三 个 核心 共享 80KB 的 SRAM 存 储 器 ， 每 个 核心 出 口 
还 有 一 个 浮 点 一 定点 数值 转换 器 〈 取 整 ) 和 Merge 单 
元 。 显 然 ，GE 的 作用 是 用 来 处 理 顶 点 的 ， 包 括 坐 标 
变换 、 剪 裁 和 光照 等 。 

经 GE 处 理 完毕 的 顶点 数据 会 经 由 内 部 总 线 (图 
中 Vertex Bus) 传递 给 多 个 RM 并 行进 行 栅 格 化 和 纹 
理 映 射 处 理 。RM 中 的 Fragment Generator 的 架构 如 图 
8-314 右 侧 所 示 。 其 中 TA 和 SC 是 两 片 专用 芯片 ， 并 行 
执行 ， 处 理 栅 格 化 具体 计算 、 像 素颜 色 和 z 坐 标 值 的 
插值 计算 、 纹 素 地 址 的 插值 生成 、 对 纹 素 地 址 进行 透 
视 修 正 ， 以 及 对 Mipmap 层 级 进行 计算 判断 ， 其 每 时 
钟 周期 处 理 4 个 像素 。 

TM 也 是 专用 芯片 ， 其 根据 上 一 步 输出 的 纹 素 地 
址 ， 从 其 附带 的 SDRAM 中 提取 纹 素 ， 并 传送 到 下 游 
的 多 个 TF 专用 芯片 进行 纹理 过 滤 计 算 ， 最 终 给 每 个 像 
素 附 以 最 终 的 颜色 值 。 图 8-314 中 间 下 部 所 示 为 Image 
Engine 架 构 示意 图 ， 其 含有 一 个 专用 芯片 ， 附 带 一 定 
量 的 SDRAM， 所 有 Image Engine 附 带 的 SDRAM 共 同 
组 成 了 Frame Buffer。Image Engine 的 作用 就 是 执行 像 
素 级 处 理 ， 包 括 抗 锯 齿 等 。 如 图 8-315 所 示 ，Display 
Generator Board 的 作用 是 生成 最 终 的 视频 信号 ， 包 括 
色彩 处 理 、DA 转 换 等 。 


ü А 

| Image Engine 
To Display 

ры 


Geometry Engine 


TA : Texel Address Calculator 
SC : Scan Converter 

TM : Texture Memory Controller 
TF : Texture Filter 


Fragment Generator 


图 8-314 SGIInfiniteReality 模 块 架 构 示 意图 


Ë 


Channels 2-8 


图 8-315 Display Generator Board 架 构图 


如 图 8-316 所 示 为 上 述 几 个 单 板 的 实物 图 。 这 些 
硕大 的 单 板 共同 组 成 了 “显卡 ”这 个 角色 。 好 马 配 
好 鞍 ， 支 撑 该 显卡 运行 的 Host 主 机 系统 为 SGI 设 计 的 
Onyx 工 作 站 计算 机 ， 运 行 UNIX 操 作 系统 ， 整 个 系统 如 图 
左上 角 所 示 。 图 左下 角 所 示 为 工作 站 机 箱 内 用 于 承载 这 些 
单 板 的 背 板 。 这 些 图 形 处 理 单 板 共同 组 成 了 InfiniteReality 
处 理 单元 。Onyx 机 箱 内 部 还 需要 配备 CPU 和 内 存单 板 ， 
用 于 运行 Host 端 的 操作 系统 以 及 绘图 软件 程序 。 

SGI 的 这 套 InfiniteReality 引 擎 的 架构 放 在 现在 
来 看 其 实 也 不 过 时 ， 其 与 图 8-273 所 示 的 NVidia 的 
GeForce 6000 系 列 GPU 的 内 部 架构 如 出 一 略 ， 后 者 只 
是 将 这 整个 引擎 集成 到 了 一 个 芯片 中 。 


SGI 的 系统 稳定 性 极 佳 ， 但 是 后 来 还 是 走向 了 
衰败 。SGI 衰 败 的 原因 业界 普遍 认为 有 以 下 几 点 : 


图 8-316 上 述 图 形 处 理 单 板 的 实物 图 
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高 昂 的 价格 、 封 闭 的 生态 与 高 调 的 姿态 。 这 也 是 
其 他 与 SGI 图 形 工作 站 类 似 的 通用 计算 机 系统 比如 
IBM/Unisys/Sun 等 小 型 机 系统 走向 衰败 的 原因 。 
了 PC 市 场 攻 勃 发 展 ， 使 得 采用 通用 CPU+ 通 用 显卡 十 
第 三 方 图 形 软件 就 可 以 DIY 一 套图 形 工作 站 。 你 可 
能 没 想到 的 是 ，OpenGL API 的 前 身 就 是 SGI 公 司 的 
IRIS GL (Integrated Raster Imaging System Graphics 
Library ) 。IRIS 是 SGI 公 司 曾经 的 一 款 图 形 工作 站 
系统 。 后 来 SGI 将 IRIS GL 开源 ， 后 形成 了 OpenGL 
标准 ， 而 且 跨 平台 通用 。OpenGL 1.0 标 准 于 1992 年 
发 布 。 


PC 市 场 是 个 开放 、 竞 争 激烈 、 英 雄 辈出 的 市 场 。 
我 们 下 面 就 来 历数 一 下 PC 显卡 市 场 上 曾经 和 现在 的 代 
表 性 选手 们 。 我 们 前 文中 已 经 介绍 过 20 世 纪 80 年 代 时 
的 景象 ， 并 提 到 了 IBM 的 PGC 显 卡 。 在 20 世 纪 80 一 90 
年 代 初 ， 市 场 上 一 度 出 现 过 多 家 图 形 加 速 芯片 厂商 、 
数 十 个 品牌 的 显卡 制造 商 。 一 直到 九 十 年 代 中 后 期 ， 
GPU 芯 片 逐渐 被 几 家 厂商 所 垄断 。 如 图 8-317 所 示 为 
PC 市 场 3D 显 卡 和 API 发 展 关键 路 标 。 


8.2.11.3 S3 ViRGE 时 代 


1996 年 ，S3 公 司 推出 了 ViRGE 芯 片 ， 其 原本 是 
一 款 2D 图 形 加 速 芯片 〈 型 号 Trio64v+， 几 乎 垄断 了 当 
时 的 2D 显 卡 芯片 ) ， 但 是 通过 新 的 固件 ， 支 持 了 3D 
加 速 功能 。 不 过 ， 由 于 只 是 通过 固件 升级 ， 利 用 内 部 
的 计算 核心 来 计算 3D 泻 染 ， 其 性 能 非常 一 般 ， 甚 至 
有 些 时 候 还 不 如 利用 Host 端 CPU 进行 软 泻 染 。 同 时 代 
与 该 产品 类 似 路 数 的 其 他 产品 有 ATI Rage 以 及 Matrox 
Mystique 显 卡 等 。 

如 图 8-318 左 侧 所 示 为 当时 的 基于 S3 Trio64v+ 芯 
片 的 2D 加 速 显卡 ， 右 侧 为 基于 S3 ViRGE 芯 片 的 显卡 
实物 图 。 
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Weak 3D Accelerator forhome PC 
- 1995 53 ViRGE 

- 1996 ATI Rage - NVIDIA GeForce3, GeForce3 Titani 
- DirectX 8.1 (PS 12, 13, 1.4) 

1st 3D Accelerator for home PC - ATI Radeon 8500 (TruForm) 
- 1996: 3Dfx Voodoo 1 


: Graphic coprocessor ( “pass-through” ) 2002: Advanced GPU programming 


irectX 9.0 一 VS, PS 
- NVIDIA GeForce4 талип 
= ATI Radeon 9000, 9700 [Pro] 


= Glide А! 


1st SLI сага (Scan Line Interleave) 
~ 1998: 3Dfx Voodoo2 ( Multi Texturing 


2001: GPU became programmable 
- DirectX 8.0 (vertex shaders, ogma shaders, 1.0, 1.1) 


2006 
~ Directx 10 (Windows Vista) . geometry shaders 
- NVIDIA GeForce 7600, 7900 

- ATI Radeon X1800, X1900 


2007 

CUDA (NVIDIA) - GPGPU programming in C 
- NVIDIA GeForce 8600, 8800 
- ATI Radeon R600 (HD 2400, 3850) 


2009 
- OpenGL 32, DirectX 11 


Supported ) 2003: Affordable DX9 
- Cheap DirectX 9.0 — compatible cards (VS, PS 2.0) - GPU support Tesselation 

NVIDIA/ATI ~ NVIDIA GeForce FX 5200-5800 ~ NVIDIA Fermi 
~ Multi Texturing - ATI Radeon 9800 

> 1997 : NVIDIA Riva 128 2010 

11998: NVIDIA Riva TNT Тийм 2004: Extended shader programming - OpenGL 4 

xel" ) - DirectX 9.0c (VS, PS 3.0), OpenGL 2.0 (at last!) - OpenCL: General computing on GPU 
71898 Ат 30 Rage Pro - NVIDIA GeForce 6800, 6200, 6600 
- ATI Radeon X800 2011-=% 


1st HW T&L ( “transform & lighting” ) 
- 1999 : NVIDIA GeForce 256 

~ 1999 : ATI Redeon 7500 

- 1999 : S3 Savage3D 


2005: HW advances 

~ PCI-Express bus 

> Twin GPU systems – NVIDIA: SLI, 
- NVIDIA GeForce 7800 

2ооо - ATI Radeon X550, X850 
~ NVIDIA GeForce2 

- ATI Radeon 


Computing servers using many GPU cards 
(NVIDIA Tesla architecture) 
- OpenGL 4.6 
= DirectX 12 (Windows 10, Xbox От 


ATI: CrossFire е) 
= OpenGL ES for mobile platforms (GLES 3.2) 


图 8-317 PC 市 场 3D 显 卡 和 API 发 展 关键 路 标 


图 8-318 ”基于 S3 Trio64v+ 的 2D 显 卡 以 及 S3 ViGRE 芯 片 的 3D 显 卡 实物 图 


不 过 ，S3 ViRGE 芯 片 对 3D 功 能 的 支持 在 当时 非 
常 全 面 ， 再 加 上 其 较 全 面 的 特性 支持 及 其 在 2D 领 域 的 
董 断 地 位 ，ViRGE 芯 片 在 3D 显 卡 市 场 上 的 占有 率 也 一 
度 突 破 了 50%。 如 图 8-319 所 示 为 ViRGE 芯 片 内 部 架构 
图 和 所 支持 的 特性 一 览 〈 可 以 看 到 其 3D 特 性 基本 上 是 
对 几何 运算 后 面 的 步骤 进行 加 速 ， 当 时 几何 运算 还 是 
依靠 CPU 来 完成 ) 。 其 中 S3D 模 块 就 是 用 于 2D 和 3D 加 
速 计算 的 芯片 ， 其 很 有 可 能 是 类 似 DSP 的 处 理 器 。 

不 过 ， 当 市 场 上 的 新 秀 3dfg 的 Voodoo 芯 片 崛起 之 
后 ，S3 遍 逐渐 陨落 ， 虽 然 在 1998 年 及 之 后 也 推出 了 
Savage3/4/2000 系 列 显 卡 ， 但 是 未 能 扭转 局 势 。S3 在 
2001 年 被 VIA 收购 ， 在 2011 年 又 被 VIA 卖 给 了 HTC， 
转向 专攻 移动 终端 GPU 市 场 。 

3dfx Voodoo 是 何方 神圣 ? 


8.11.2.4 3dfx Voodoo 时 代 


3dfx 公 司 由 SGI 公 司 出 来 的 三 位 工程 师 创立 于 
1994 年 初 ， 获 得 550 万 美元 的 初始 资金 ， 并 命名 其 加 
速 芯 片 为 Voodoo (ЖЖ) 。 公 司 的 第 五 位 雇员 Brian 
Hook 亲 手 设 计 了 3d 人 x 专用 的 绘图 API 一 一 Glide API, 


这 个 高 性 能 、 易 用 的 API 是 让 3d 低 的 产品 走向 了 广泛 
应 用 的 原因 之 一 。 不 过 Brian Hook 在 3dfx 未 辉煌 之 
前 就 离开 并 加 入 了 id software (著名 的 早期 3D 游 戏 
Quake、DOOM 系 列 的 开发 商 ) 。 
Voodoo 芯 片 只 提供 3D 加 速 能 力 ， 不 提供 2D 加 
速 ， 这 就 意味 着 ， 以 往 那 些 利 用 2D 加 速 能 力 进行 泻 
染 的 软件 GUI、Windows 操 作 系统 窗口 、 按 钮 、 特 效 
等 ， 就 无 法 利用 Voodoo 显 卡 进行 泻 染 。 因 此 ，Voodoo 
必须 配套 一 张 2D 显 卡 使 用 ， 先 将 2D 显 卡 的 VGA 输 出 
信号 输入 到 Voodoo， 在 不 进行 3D 泻 染 时 ，Voodoo 对 
该 信号 进行 透 传 并 输出 到 显示 器 ， 一 旦 程序 开始 进行 
3D 泻 染 ， 则 Voodoo 显 卡 切换 到 自己 的 显示 信号 上 输 
出 。 这 意味 着 Voodoo 无 法 进行 窗口 化 游戏 (同时 显示 
桌面 菜单 以 及 游戏 窗口 ) ， 只 能 运行 在 全 屏 3D 模 式 。 
如 图 8-320 所 示 为 Voodoo 显 卡 及 其 连接 方式 。Voodoo 
显卡 采用 一 颗 像素 处 理 芯 片 (Frame Buffer Interface， 
ЕВГ, АННЕ. ЗЕТ. ВА) 和 一 颗 纹理 填充 处 
理 芯片 CTMU， 负 责 纹理 填充 ， 支 持 双 线性 /三 线性 
过 滤 ， 最 高 支持 236X256 分 辩 率 纹理 ) 共同 组 成 ， 核 
心 和 显存 的 运行 频率 都 是 50 MHz。Voodoo 团 队 的 创 


SYSTEM BUS INTERFACE (PCIVL) 


BIU (BIU, STATUS AND DMA REGS) 


RAMDAC REGISTER READIWRITE 
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S3d Graphics Engine Features 
* High performance 2D Windows acceleration 
• Flat and Gouraud shading for 3D 


READ] 
BYPASS| 


LPB : Local Peripheral Bus 
S3D : 主 处 理 芯片 


MEMORY МЕҢ 


e High quality/performance 30 texture mapping 
• Perspective correction 

Bi-linear and tri-linear texture filtering 

MIP-Mapping 

Depth cueing and fogging 

Alpha blending 

Video texture mapping 

Z-buffering 


Full Software Support 
• Drivers for major operating systems and APIs: 
[Windows® 95, Windows® 3.11, Windows® МТ, 
05/2° 2.1 and 3.0 (Warp), ADI 4.2]. Direct 3D™ 
BRender™, RenderWare™ and OpenGL™ 


48-320 ”Voodoo 显卡 及 其 连接 方式 


始 人 源 自 SGI，Voodoo 在 一 定 程度 上 可 以 认为 是 高 端 
专业 演 染 领域 的 技术 下 放 到 了 PC 市 场 的 结果 。 

Voodoo 必 须 配合 另 一 张 2D 加 速 显卡 这 个 限制 
增加 了 用 户 的 购置 成 本 。 但 是 凭借 其 优秀 的 3D 加 速 性 
能 ， 以 及 3dfx 公 司 在 游戏 开发 者 领域 的 原 有 良好 关系 
和 对 Glide API 大 力 的 推广 ， 使 得 众多 游戏 开发 者 开发 
了 基于 Glide API 的 游戏 。 在 1996 年 E3 游 戏 展 上 ， 有 15 
个 游戏 利用 Voodoo 实 现 了 当时 与 上 一 代 3D 加 速 显 卡 
相 比 明显 提升 的 画 质 ， 这 个 结果 非常 令 人 震撼 ，3dfx 
及 其 Voodoo 一 举 成 名 ， 并 获得 了 第 二 轮 投资 。 

3dfx 一 开始 的 策略 是 自己 生产 自己 品牌 的 Voodoo 
芯片 的 显卡 ， 其 价格 昂贵 。1996 年 ，3dfx 开 放 了 让 其 
他 第 三 方 显卡 制造 商 生 产 基 于 Voodoo 芯 片 显卡 的 授 
权 。 随 着 SDRAM 存 储 器 的 价格 下 降 ， 第 三 方 制造 商 
觉得 Voodoo 芯 片 方案 的 显卡 性 价 比 可 以 让 消费 市 场 接 
受 ， 所 以 市 场 上 大 量 涌现 出 了 Orchid、Diamond、Elsa、 
Creative Labs 等 一 系列 品牌 的 基于 Veodoo 芯 片 的 显卡 。 

同时 支持 Glide/D3D/OpenGL 更 增加 了 该 卡 的 受 
欢迎 程度 ， 虽 然 D3D 在 当时 的 性 能 与 OpenGL 无 法 媲 
美 。 支 持 Glide API 的 游戏 Tomb Rider (HN) 以 


及 NFSI (极品 飞车 2) 中 表现 出 来 的 与 其 他 显卡 差异 
巨大 的 效果 ， 也 造就 了 Voodoo 的 辉煌 ， 成 为 当时 PC 机 
3D 实 时 泻 染 加 速 卡 领域 的 标杆 ， 当 时 谈 3D 必 Voodoo。 
那么 ，Voodoo 对 画面 的 表现 力 到 底 强 在 哪里 呢 ? 
如 图 8-321 所 示 为 古 墓 丽 影 以 及 Quake 游 戏 的 画面 对 
比 。 两 幅 画 面 左 侧 马赛 克 严 重 的 画面 为 采用 软件 泻 染 
或 者 其 他 3D 加 速 卡 在 可 接受 的 帧 率 下 所 能 达到 的 最 
高 画 质 ， 而 右 侧 所 示 则 为 Voodoo 以 同样 或 者 更 高 帧 率 
演 染 能 达到 的 画 质 。 可 以 明显 看 到 ， 左 侧 画面 由 于 无 
法 采用 更 高 级 别 的 纹理 采样 过 滤 计 算 ， 导 致 严重 的 马赛 
克 。 而 Voodoo 使 用 更 强 的 算 力 ， 可 以 应 用 更 高 的 采样 过 
滤 级 别 〈 其 实 只 是 双 线性 过 滤 ) ， 实 现 更 平滑 的 画 质 。 
可 能 会 感觉 经 过 Voodoo 处 理 后 的 画 质 稍 显 模糊 
不 锐利 〈 部 分 原因 是 Voodoo 采 用 有 损 压 缩 的 方式 来 存 
放 纹 理 ， 导 致 纹理 变 模糊 ) ， 但 这 只 是 静态 画面 。 真 
实 游 戏 时 ， 随 着 视角 不 断 移 动 ， 我 们 前 文中 介绍 过 ， 
纹理 过 滤 不 充分 会 导致 画面 产生 游 走 的 颗粒 ， 这 个 感 
觉 非常 难以 忍受 ， 而 Voodoo 的 出 现 让 画 质 得 到 了 飞 
跃 。 除 了 纹理 过 滤 方 面 可 以 开 到 更 高 的 力度 之 外 ， 在 
特效 方面 ， 针 对 Voodoo 开 发 的 游戏 引入 了 更 多 特效 ， 
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图 8-321 


比如 Quake 中 枪械 射出 的 火球 会 照 亮 隧道 内 表面 、 极 
品 飞 车 2 游戏 中 的 轮胎 摩擦 产生 的 烟雾 、 蜂 群 撞击 到 
玻璃 上 等 ， 这 些 特效 都 需要 引入 更 高 的 算 力 ， 而 只 有 
Voodoo 有 这 种 算 力 。 

所 以 ，Voodoo 本 身 并 不 会 凭空 增加 什么 画面 特 
效 ， 而 只 是 由 于 其 强大 的 算 力 和 高 性 能 的 API， 相 同 
帧 率 下 相 比 软件 或 者 其 他 3D 加 速 卡 而 言 让 用 户 敢 开 到 
最 高 特效 畅 玩 。 或 者 游戏 本 身 只 针对 Voodoo 卡 提供 更 
高 特效 的 选项 ， 如 果 针 对 其 他 卡 或 者 软 泻 染 也 提供 对 
应 高 特效 选项 ， 则 游戏 帧 率 将 不 可 接受 ， 所 以 游戏 开 
发 商 干脆 直接 砍 掉 对 应 的 配置 选项 。 这 也 是 Voodoo 被 
神话 的 原因 之 一 ， 让 大 众 认 为 Voodoo 本 身 有 某 种 黑 科 
技 可 以 凭空 增加 特效 。 

在 那个 全 民 普 遍 发 烧 的 年 代 ， 拥 有 一 个 比 其 他 
产品 支持 更 多 显而易见 特效 的 产品 ， 无 疑 给 发 烧 友 提 
供 了 强劲 的 能 量 ， 广 大 3D 图 形 发 烧 友 们 把 Voodoo 推 
上 了 神 坛 。 当 时 3D 显 卡 市 场 上 80% 一 85% 的 份额 都 是 
Voodoo 的 。 

然而 ， 只 提供 3D 加 速 无 疑 是 Voodoo 的 一 大 痛 
点 ， 大 家 都 期 盼 3dfx 能 够 推出 一 款 2D/3D 统 一 的 
Voodoo 加 速 卡 。1997 年 ，Voodoo 直 接 与 Alliance 公 司 
合作 ， 将 后 者 的 AT3D 芯 片 ( 也 是 一 款 3D 加 速 器 ) 与 
Voodoo 芯 片 集成 到 同一 张 卡 上 ， 并 将 该 产品 命名 为 
Voodoo Rush， 实 现 2D 和 3D 统 一 。 如 图 8-322 右 侧 所 示 
为 当时 由 第 三 方 制造 商 制造 的 Hercules 品 牌 的 Voodoo 
Rush 显 卡 ， 其 将 3D 部 分 作为 子 卡 扣 在 2D 母 卡 上 。 左 
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古 幕 丽 影 和 Quake 游 戏 画 面 


侧 所 示 为 单 板 卡 版 本 。 

的 确 ， 如 其 名 字 所 言 ， 该 产品 的 确 太仓 促 。 
Voodoo 芯 片 组 与 AT3D 芯 片 之 间 在 内 存 管 理 和 访问 方 
面 没 有 优化 好 ， 导 致 效率 低下 ， 另 外 对 游戏 的 兼容 性 
也 出 现 了 问题 ， 之 前 可 以 跑 在 Voodoo 上 的 游戏 竟然 在 
Voodoo Rush 上 无 法 开启 3D 硬 件 加 速 。 就 这 样 ， 这 一 
代 产 品 以 失败 告终 。 

1998 年 3 月 ，3dfx 推 出 了 Voodoo2 芯 片 组 ， 其 核心 
频率 90 MHz， 显 存 频率 100 MHz， 使 用 了 3 个 独立 芯 
片 组 成 ， 相 比 Voodoo 增 加 了 一 片 TMU 芯 片 ， 这 样 可 
以 在 一 次 Draw Call 中 同时 处 理 两 个 纹理 比如 一 个 颜 
色 纹 理 和 一 个 法 线 纹理 ) 。 如 图 8-323 所 示 为 帝 盟 生 
产 的 Voodoo2 显 卡 实物 图 。Voodoo2 仍 然 只 支持 3D 加 
速 。 然 而 ，Voodoo2 相 比 Voodool 的 性 能 提升 并 非 透 明 
的 ， 而 是 需要 游戏 针对 Voodoo2 的 第 二 个 TMU 并 行 特 
性 进行 定制 化 开发 ， 在 一 次 Draw Call 中 引入 两 个 纹理 
处 理 才 可 以 。 然 而 ， 由 于 Voodoo2 的 核心 和 显存 频率 
都 高 于 Voodoo1， 所 以 其 针对 老 游 戏 还 是 有 一 定 程度 
的 透明 提速 的 。 游 戏 Quake2 和 Unreal 针 对 Voodoo2 做 
了 定制 开发 ， 能 够 显著 提升 性 能 。 

Voodo02 的 另 一 个 特性 是 引入 了 SLI (Scan Line 
Interleave, 120%) 技术 ， 该 技术 可 以 在 一 台 PC 
上 插 两 张 Voodoo2 卡 ， 让 两 块 卡 分 别 对 屏幕 像素 区 域 
的 上 半 部 分 和 下 半 部 分 进行 泻 染 ， 双 卡 并 行 ， 理 论 上 
演 染 一 帧 的 速度 会 提升 一 倍 。 双 卡 之 间 需 要 通过 特殊 
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不 仅 增 加 了 泻 染 性 能 ， 而 且 还 增加 了 Frame Buffer 的 


容量 ， 使 得 可 以 支持 更 高 分 辨 率 。 如 图 8-324 所 示 为 
双 Voodoo2 卡 利用 SLI 连 接 的 拓扑 示意 图 和 实物 图 。 


其 实 第 一 代 Voodoo 已 经 支持 SLI 技 术 ， 只 不 
过 由 于 太 高 端 ， 其 多 被 用 于 街机 以 及 专业 绘图 领 
域 。 而 Voodoo2 选 择 将 这 个 技术 下 放 到 PC 市 场 。 
3dfx 被 Nvidia 收购 之 后 ， 后 者 在 2004 年 重启 了 对 SILI 
的 支持 ， 只 不 过 那 时 的 SLI 被 改称 为 Scalable Link 
JInterface， 中 文 商用 名 “ 速 力 ”。 速 力 可 以 支持 双 
卡 到 四 卡 并 行 泻 染 。 其 采用 AFR (Alternate Frame 
Rendering， 帧 间 交 错 ) 以 及 SFR (Scissor Frame 
Rendering， 帧 内 交错 ) 两 种 方式 在 双 卡 甚至 多 卡 
之 间 分 割 泻 染 任务 。 前 者 以 帧 为 单位 在 卡 间 分 割 任 
务 ， 而 后 者 将 一 帧 屏幕 的 IN 区域 分 配给 N 块 卡 中 的 
一 块 来 泻 染 ( 与 Voodoo 时 代 的 SLI 方 式 相同 ) 。ATI 
也 发 布 了 类 似 技术 ， 其 被 称 为 CrossFire。 


Voodoo2 再 次 成 就 了 3d 人 的 辉煌 ， 应 该 是 该 公司 
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处 于 辉煌 顶峰 的 产品 。 不 过 ， 也 是 在 1998 年 ， 竞 争 
对 手 Nvidia 推 出 了 TNT (TwiNTexel) ，ATI 推 出 了 3D 
Rage Pro， 它 们 各 自 也 都 支持 多 个 并 行 的 TMU 单 元 。 
TNT 在 某 些 场景 下 〈 未 使 用 多 纹理 并 行 泻 染 的 游戏 
的 性 能 上 其 实 已 经 超过 了 Voodoo2。 

1998 年 6 月 ，3dfx 推 出 了 Voodoo Banshee ( £ 
#K) ， 其 将 2D 加 速 器 以 及 去 掉 了 一 个 TMU 的 Voodoo2 
芯片 组 ， 共 3 个 芯片 模块 ， 集 成 到 了 一 个 芯片 中 ， 其 
形态 与 竞争 对 手 的 产品 开始 变 得 一 样 ， 如 图 8-325 所 
示 。 由 于 Banshee 的 运行 频率 两 倍 于 Voodoo2， 而 相 比 
后 者 仅仅 少 了 一 个 TMU， 所 以 对 于 那些 未 使 用 多 纹 
理 并 行 泻 染 的 游戏 ， 其 性 能 反而 高 于 Voodoo2， 但 是 
其 市 场 定位 在 中 端 显卡 位 置 ， 售 价 也 低 于 Voodoo2。 
Banshee 的 2D 性 能 也 非常 优异 ， 曾 经 在 一 些 性 能 测 
试 中 排名 第 一 。 然 而 ， 其 市 场 反应 并 未 达到 预期 ， 
Voodoo 的 粉丝 们 好 像 对 纯粹 的 Voodoo 更 感 兴趣 ， 而 
不 是 衍生 出 来 的 Banshee。 另 外 一 个 原因 是 竞争 对 手 
Nvidia 和 ATI 的 显卡 已 经 在 一 些 品 牌 PC 厂商 中 成 功 称 
为 标 配 卡 ， 而 Voodoo Banshee 在 品牌 PC 厂商 中 只 占有 
少量 份额 。 不 过 即便 如 此 ，Banshee 也 为 3dfx 带 来 了 可 
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观 的 收益 ， 毕 竟 品 牌 底蕴 还 在 。 1999 年 3 月 ，3dfx 推 出 了 用 自家 STB 工 厂 生产 的 
然而 ，3dfx 并 未 意识 到 其 即将 从 顶峰 一 с: Voodoo3 显 卡 ， 如 图 8-326 所 示 。 
其 仿佛 被 短暂 的 胜利 冲 昏 了 头脑 ， 走 出 了 自我 毁 Voodoo3 只 支持 16 位 色彩 ， 而 同时 期 竞争 对 手 早 


的 一 步 ， 想 着 有 钱 自 个 儿 全 捞 ， ее аи 已 支持 了 24 位 ， 并 且 性 能 上 的 差距 已 经 不 相 伯仲 ， 除 
始 ， 自 产 自 销 。3dfx 于 1998 年 末 收 购 了 显卡 制造 商 。 了 那些 专门 针对 Voodoo 优 化 过 的 游戏 比如 Quake 系 列 
STB， 并 收回 了 原本 给 予 其 他 第 三 方 制造 商 的 芯片 授 。 以 及 Unreal 系 列 之 外 ，Voodoo3 在 其 他 游戏 中 的 性 能 
权 ， 做 自己 品牌 的 显卡 。 这 一 招 基 本 上 断绝 了 3d 人 x 的 。 表现 已 经 没有 Voodoo 一 代 时 那样 令 人 震撼 。 在 Nvidia 
前 途 。 制 造 容易 ， 销 售 难 ， 第 三 方 显 卡 制造 商都 拥有 ”推出 TNT2 显 卡 后 ，3dfx 的 自 势 基本 已 成 定局 。 冬 瓜 哥 
各 自 广泛 的 营销 、 销 售 渠道 ， 单 赁 3d 人 x 一 家 根本 无 法 。 还 记得 当年 大 学 对 门 宿舍 用 的 就 是 TNT2 显 卡 ， 与 对 
抗衡 。 加 之 第 三 方 制造 商 们 没有 了 Voodoo 芯 片 使 用 授 。 方 联机 玩 CS 时 总 被 爆 。 当 时 冬瓜 哥 的 电脑 是 SIS300 显 
权 ， 以 及 Voodoo 坚 挺 的 价格 ， 制 造 商 和 用 户 逐 渐 全 面 = 卡 ， 流 畅 度 要 弱 于 TNT2 一 截 。 

转投 当时 已 经 崛起 的 NVidia 和 ATI， 而 此 时 N 和 A 司 的 3dfx 在 2000 年 又 发 布 了 Voodoo5 和 Voodoo4 显 卡 。 
产品 其 实 已 经 迎头 赶 上 了 。 其 中 Voodoo5 6000 型 显卡 上 采用 了 4 芯片 ， 并 且 支 持 4 


图 8-326 ”Voodoo3 显 卡 实物 图 


卡 SLI， 如 图 8-327 所 示 。3dfx 仿 佛 更 加 倾心 于 高 端 产 
品 ， 但 是 大 众 已 经 有 了 更 经 济 的 选择 ， 所 以 高 不 成 低 
不 就 的 定位 ， 导 致 该 卡 全 球 生产 仅 千 片 左右 ， 如 今 已 
成 了 发 烧 友 们 收藏 品 。 

综 上 ，3dfx 未 能 抓 住 市 场 机 遇 ， 加 上 自己 决策 
失误 ， 同 时 由 于 3dfxk 对 D3D API 长 期 的 不 懈 ， 没 有 站 
到 正确 的 队伍 。 最 终 3dfx 在 2001 年 被 NVidia 收 购 。 后 
来 ， NVidia 和 AIIAMD 双 雄 逐 鹿 一 直到 今天 。 


8.2.11.5 Nvidia 和 ATI 时 代 


Nvidia 和 ATI (后 被 AMD 收 购 ) 是 目前 仅 存 的 两 
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家 PC 市 场 GPU 厂商 。 也 正 是 这 两 个 厂商 彻底 终结 了 
Voodoo 时 代 。Nvidia 公 司 成 立 于 1993 年 ， 其 第 一 款 产 
品 于 1995 年 推出 ， 比 较 奇 特 。 该 产品 将 显卡 、 声 卡 集 
成 到 一 张 卡 上 ， 同 时 提供 声音 和 2D/3D 加 速 功能 ， 该 
芯片 组 项 目 代号 为 STG2000。 如 图 8-328 所 示 为 帝 盟 基 
-该 STG2000 芯 片 组 制造 的 商品 名 Edge 3D 的 显卡 ， 
其 还 提供 了 15 针 的 游戏 手柄 接口 。 

该 芯片 组 的 3D 演 染 部 分 比较 特殊 ， 其 采用 了 二 次 
曲面 而 不 是 三 角形 作为 图 元 ， 这 虽然 可 以 让 模型 更 加 
平滑 ， 但 是 在 其 他 方面 比如 纹理 映射 计算 时 会 导致 很 
多 不 便 。 当 微软 于 1996 年 在 Windows 95 操 作 系 统 中 集 


图 8-327 
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成 了 Direct3D 2.0 API 后 ， 该 卡 也 就 彻底 没 了 市 场 ， 因 
为 D3D 都 是 以 三 角形 作为 面 图 元 的 。 该 卡 由 于 属于 All- 
Ih-One 设 计 ， 其 成 本 必然 较 高 ， 再 加 上 其 MIDI 合 成 部 分 
的 兼容 性 也 不 太 好 ， 这 两 样 也 是 其 销售 不 佳 的 原因 。 

该 卡 的 推出 与 游戏 开发 厂商 SEGA 有 密切 关系 ， 
其 游戏 手柄 接口 是 按照 SEGA Saturn 家 用 游戏 机 手柄 
相 兼 容 而 设计 的 ，SEGA 也 将 其 开发 的 多 款 原 本 只 运 
行 在 家 用 机 上 的 游戏 做 了 移植 开发 ， 支 持 该 卡 。 但 是 
SEGA 当 时 的 家 用 机 与 索尼 的 PlayStation 系 列 竞争 败 下 
阵 来 ， 一 系列 的 因素 导致 该 卡 没有 获得 成 功 。 该 卡 在 
历史 上 被 另 称 为 NV1。 

在 随后 的 产品 中 ，Nvidia 依 然 傍 着 SEGA， 为 其 
开发 用 于 SEGA Dreamcast 家 用 游戏 机 的 显示 芯片 组 ， 
也 就 是 NV2。 但 是 鉴于 NV1 的 惨淡 经 历 ，SEGA 决 定 
不 再 采用 基于 二 次 曲面 图 元 的 泻 染 架构 ， 转 为 采用 
三 角形 图 元 架构 ， 最 终 选择 使 用 了 NEC/VideoLogic 的 
PowerVR2 3D 加 速 芯片 组 ， 于 是 NV2 项 目 天 折 。 当 时 
Nvidia 可 谓 是 非常 落 昕 了 ， 工 资 发 不 出 ， 也 裁 了 员 。 
Nvidia 认 清 了 形势 ， 将 架构 转 为 三 角形 图 元 泻 染 ， 以 
及 全 力 支持 D3D、OpenGL API， 于 是 有 了 项 目 NV3， 
重新 聘 回 被 裁 的 员工 ， 重 起 炉灶 。 

NV3 项 目 对 应 的 产品 为 Riva 128 芯 片 ， 于 1997 
年 推出 ， 其 全 称 为 Real-time Interactive Video and 
Animation accelerator。 如 图 8-329 所 示 为 帝 盟 制造 的 基 
于 Riva 128 芯 片 的 显卡 。 

Riva 128 芯 片 集成 有 350 万 晶体 管 ， 制 程 350 nm, 
核心 频率 100 MHz， 显 存 4MB (承载 Frame Buffer 和 
纹理 ) ，12KB 片 内 存储 器 用 于 像素 和 顶点 缓冲 区 ， 
支持 16 位 色 ， 支 持 16 位 z-buffer，RAMDAC 频 率 206 
MHz, АСР X2 接 口 。 其 内 含 一 条 像素 处 理 管线 ， 每 
时 钟 周期 处 理 一 个 像素 ， 则 像素 填充 率 为 每 秒 10 亿 像 
素 ， 如 果 按 照 每 个 三 角形 占 25 像 素 的 话 ， 每 秒 三 角形 
生成 数 为 150 万 。 这 些 指标 就 是 那个 时 代 衡 量 一 个 显 
卡 的 关键 指标 ， 当 时 选 购 显卡 通常 看 的 就 是 像素 填充 
率 和 三 角形 生成 数 。 

Riva 128 的 推出 让 Nvidia 这 家 公司 迅速 引起 人 们 


的 注意 ， 因 为 同时 期 Voodoo 卡 只 提供 3D 加 速 功能 ， 
人 们 更 希望 有 2D/3D 统 一 的 加 速 卡 ， 而 Riva 128 在 2D 
性 能 和 画 质 方面 非常 强悍 。 在 3D 方 面 ，Riva 128 一 开 
始 的 驱动 程序 在 游戏 测试 中 产生 了 一 些 瑕 竟 ， 比 如 
当 切 换 使 用 不 同 层级 的 Mipmap 纹 理 时 太 过 突然 ， 导 
致 画面 过 度 不 均匀 ; 再 就 是 驱动 程序 使 用 了 自动 生成 
Mipmap 纹 理 的 方式 ， 这 使 得 一 些 游戏 在 运行 时 产生 
不 可 预见 的 瑕 症 。 不 过 ， 后 来 的 改进 版 驱动 程序 下 的 
测试 性 能 和 画面 质量 ， 已 经 可 以 与 Voodoo 并 驾 齐 驱 ， 
关键 是 Riva 128 支 持 比 Voodoo 更 高 的 分 辩 率 ， 这 一 点 
很 重要 ， 提 升 分 辩 率 是 提高 画 质 的 直截了当 的 做 法 。 

1998 年 ，Nvidia 推 出 Riva 128 升 级 版 芯片 Riva 128 
ZX， 显 存 升级 到 8MB，RAMDAC 频 率 升级 到 250 
MHz， 可 以 支持 更 高 的 分 辨 率 和 刷新 率 。 

Riva 128 支 持 D3D 和 OpenGL， 但 是 当时 绝 大 多 
数 3D 游 戏 基于 3dfx 的 Glide API 开 发 ，Voodoo 的 余晖 
异常 耀眼 。 比 较 流 行 的 游戏 Unreal (虚幻 ) 虽然 也 支 
持 D3D 和 OpenGL， 但 是 由 于 Riva 128 在 D3D 方 面 缺 
乏 一 些 硬件 特性 而 无 法 对 Unreal 提 供 加 速 ， 且 当时 的 
OpenGL API 的 兼容 性 和 性 能 也 不 佳 ， 所 以 Riva 128 并 
未 能 征服 流行 的 Unreal 游 戏 ， 这 使 得 Voodoo 仍 有 喘息 
的 机 会 。 而 真正 让 Voodoo 开 始 感觉 压力 的 ， 则 是 1998 
年 中 推出 的 Riva TNT CTwiN Texel) ， 代 号 NV4， 如 
图 8-330 所 示 。 

TNT 的 推出 让 Nvidia 彻底 成 名 。TNT 的 设计 目 
标 是 与 Voodoo2 直 接 竞争 ， 其 增加 了 一 个 纹理 处 理 单 
元 ， 与 Voodoo2 类 似 ， 同 时 使 用 了 更 快 的 显存 ， 支 
持 32 位 色彩 、24 位 z-buffer、8 位 stencil buffer， 支 持 
1024X 1024 分 辩 率 的 纹理 ， 支 持 三 线性 纹理 过 滤 ， 显 
存 容量 16MB， 实 际 核心 频率 90 MHz〔 设 计 频 率 为 110 
MHz) 。 

虽然 TNT 在 性 能 上 已 经 足以 媲美 Voodoo2， 但 是 
由 于 Voodoo 的 光辉 实在 是 太 过 次 眼 ， 加 上 Glide АРІ 
的 根深 蒂 固 ， 很 多 游戏 甚至 只 支持 Glide， 再 加 上 微 
软 的 Direct3D API 在 当时 与 Glide API 无 论 是 性 能 还 是 
易 用 性 上 都 没 法 比 ， 所 以 TNT 仍 然 未 能 撼动 3dfx 建 


图 8-329 ” 帝 盟 制造 的 基于 Riva 128 芯 片 的 显卡 
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图 8-330 ELSA 制 造 的 Riva TNT 显 卡 


立 起 来 的 生态 壁垒 。 而 Nvidia 依然 铁 了 心 跟 随 D3D 和 
OpenGL， 而 不 是 去 自行 开发 一 套 API， 坚 持 到 底 就 是 
胜利 。TNT 的 推出 让 业界 看 到 了 新 的 力量 ， 而 1998 年 
3dfx 的 决策 失误 则 又 将 市 场 拱手 让 人 。Nvidia 稍 后 推 
出 了 阔 割 版 的 TNT: TNT Vanta， 其 就 是 降 频 版 的 TNT 
芯片 〈 晶 元 上 品质 差 一 些 的 Die) o TNT Vanta 在 一 些 
品牌 PC 机 上 获得 了 较 大 的 份额 ， 而 当时 的 3dfx 则 还 在 
梦想 着 自 产 自 销 。 


Nvidia 对 显卡 驱动 非常 重视 ，TNT 显 卡 的 驱 
动 代号 为 Detonator (雷管) 。 其 针对 AMD 的 3D 
Now! 指令 集 进行 优化 之 后 ， 在 运行 Quake2 基 准 测 
试 时 性 能 竟然 激增 30%， 这 一 现象 让 诸多 3D 发 烧 友 
们 欢呼 ， 更 坚定 了 Nvidia 在 市 场 上 的 名 气 和 地 位 ， 
更 让 它 成 为 了 DIY 领 域 AMD 平 台 的 显卡 流行 的 标 
配 。 发 烧 者 们 的 一 个 毛病 就 是 ， 总 是 为 了 一 丁点 的 
性 能 提升 而 付出 不 成 比例 的 努力 和 金钱， 更 别提 
30% 了 ， 发 烧 友 们 最 想 看 到 的 是 性 能 测试 分 数 的 提 
升 ， 而 似乎 根本 不 去 关心 性 能 提升 的 背后 原因 。 这 
本 质 上 有 点 类 似 于 饥饿 营销 ， 何 况 这 30%6 是 真实 压 
榨 出 来 的 。 


真正 让 Voodoo 系 列 开始 沦陷 的 ， 


则 是 1999 年 Riva 


TNT2 (NV5) 的 推出 ， 如 图 8-331 所 示 。 

TNT2 相 比 TNT， 其 芯片 架构 相同 ， 但 是 制程 由 
0.35 um 提升 到 了 0.25 hm， 直接 使 其 运行 频率 从 90 
MHz 飞 奔 到 150 MHz， 同 时 Host 接 口 升 级 到 了 AGP 
x4， 显 存 提升 到 32MB。 由 于 显存 容量 提升 ， 可 以 支 
持 2048X2048 (2 k) 分 辩 率 的 纹理 。 同 时 推出 了 阁 
制版 的 TNT2 M64， 其 显存 位 宽 减 半 ， 面 向 品牌 机 市 
场 。 同 时 也 陆续 推出 了 默认 超频 版 和 支持 更 高 频率 显 
存 版 的 芯片 ， 包 括 TNT2 Pro 和 TNT2 Ultra， 这 个 产品 
营销 手段 很 迎合 市 场 。 

TNT2 在 性 能 上 与 当时 的 Voodoo3 持 平 ， 而 且 
Voodoo3 依 然 只 支持 16 位 色彩 ， 这 个 硬 伤 被 支持 32 位 
真 彩色 的 TNT2 狂 友 滥 炸 ( 如 图 8-332 所 示 ) 。 这 些 原 
因 使 得 Voodoo 之 前 的 神话 彻底 破灭 。 但 是 Voodoo 依 然 
靠 Glide API 对 生态 的 把 控 惯性 继续 生存 着 ， 一 些 游戏 
在 Glide 模 式 下 会 有 更 多 特效 被 展现 ， 这 个 优势 仍然 吸 
引 着 大 批 Voodoo 的 死 忠 们 。 不 过 此 时 TNT2 的 粉丝 群 
已 经 壮大 ， 新 入 的 PC 机 拥有 者 们 似乎 已 经 根本 不 知道 
TNT 之 前 还 有 个 叫 作 Voodoo 的 曾经 王者 。 


提示 >> 


掌握 用 户 的 心态 其 实 很 关键 。 当 年 冬瓜 哥 DIY 
的 第 一 台 PC 游 戏 机 ， 选 用 了 Nvidia 的 GTX580 显 
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卡 ， 虽 然 同 时 期 的 AMD 显 卡 的 性 价 比 更 高 一 些 , 但 
是 仍然 看 中 了 Nvidia 卡 的 PhysX 物 理 特效 加 束 这 个 
优势 ， 因 为 当时 冬瓜 哥 正 沉浸 在 《 圣 域 2》 游 戏 当 
中 ， 享 受 那 华丽 的 物理 特效 。 


如 图 8-333 所 示 ，1999 年 10 月 份 ， 具 有 划时代 意 
义 的 3D 加 速 芯片 横 空 出 世 : GeForce 256， 其 增加 了 
纹理 处 理 单 元 的 数量 ， 同 时 将 硬件 T&L 模 块 加 入 芯 
片 ， 让 显卡 可 以 完全 从 CPU 一 侧 印 载 泻 染 流程 。GPU 
这 个 词 就 是 Nvidia 在 发 布 该 芯片 时 正式 提出 的 。 其 三 
角形 生成 速率 达到 了 一 千 万 每 秒 。 其 代号 也 直接 被 命 
名 为 NV10 (上 一 代为 NV5) 。 

而 微软 也 早 就 做 好 了 铺垫 ， 在 同年 发 布 的 
Direct3D 7.0 版 本 中 提供 了 对 硬件 T&L 的 支持 ， 其 经 过 
不 断 的 完善 ， 性 能 终于 超越 了 OpenGL， 步 入 了 发 展 
正轨 。 从 此 ， 微 软 的 D3D 与 Nvidia 的 GPU， 开 始 逐 渐 
垄断 市 场 。3d 信 彻底 出 局 ， 游 戏 开发 商 全 面 导向 D3D 
和 OpenGL。 


其 实 早 在 1997 年 ，Rendition 公 司 与 Fujitsu 合 
作 研 发 名 为 “Thriller Conspiracy” 的 项 目 ， 其 将 
Fujitsu 的 FXG-1 Pinolite 几 何 处 理 加 速 芯片 与 其 自 
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# y Увгив V2200 3D 处 理 核心 整合 ， 实 现 硬件 级 
T&L， 但 是 该 项 目 并 未 推 向 商用 市 场 。 


硬件 T&L 在 一 些 场景 下 可 以 提升 50% 的 性 能 ， 同 
时 ， 由 于 CPU 一 侧 不 再 负责 顶点 几何 运算 ， 所 以 即便 
是 性 能 差 一 些 的 CPU， 也 依然 可 以 获得 良好 的 帧 率 ， 
这 一 点 让 发 烧 友 们 沸腾 了 。 但 是 ，T&L 特 性 被 发 挥 的 
前 提 是 ， 游 戏 开发 商 需 要 针对 这 个 特性 来 开发 ， 其 并 
不 能 透明 加 速 之 前 的 老 游戏 ， 而 这 一 点 对 发 烧 友 而 言 
并 不 是 问题 ， 发 烧 的 本 质 就 是 一 种 拥有 感 ， 有 时 追求 
的 是 “能 干什么 ”而 不 是 “正在 干什么 ”。 一 直到 几 
年 之 后 ， 一 些 游戏 才 陆 续 支 持 该 特性 。 

在 那个 角逐 异常 激烈 的 年 代 ， 厂 商 甚至 同一 年 会 
接连 发 布 多 个 产品 。 那 同时 也 是 个 辉煌 的 年 代 ，PC 市 
场 的 发 展 和 风起云涌 简直 让 人 回味 无 穷 ， 这 情形 正如 
当今 的 智能 手机 市 场 一 样 。 

2000 年 ，Nvidia 推 出 了 GeForce2 系 列 显卡 ， 
从 此 ，Nvidia 进 入 高 发 展 时 期 。 其 又 陆续 推出 了 
GeForce3 〈 开 始 支持 可 编程 泻 染 管线 ) 、GeForce4、 
GeForce FX (5xxx), GeForce 6 (6xxx), GeForce 
7 (7ххх), GeForce 8 (8xxx), GeForce 9 (9ххх), 
GeForce 100, GeForce 200, GeForce 300, GeForce 
400. GeForce 500. GeForce 600. GeForce 700. 
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图 8-333 GeForce 256 显 卡 


GeForce 900, GeForce 10 (10xx) 系列 显卡 ， 每 个 
系列 均 有 多 种 子 型 号 。 每 一 代 GPU 的 关键 提升 就 是 
增加 处 理 核 心 单 元 的 数量 、 提 升 核心 和 显存 频率 、 增 
加 显存 容量 和 位 宽 、 优 化 内 部 架构 ， 以 及 与 新 版 本 的 
Direct3D API 配 合 支持 ， 如 图 8-334 所 示 。 

冬瓜 哥 在 2011 年 入 手 了 第 一 块 NV 的 显卡 ， 
GTX580，4500 人 民 币 ， 发 热 大 户 ， 还 记得 夏天 大 汗 
淋漓 的 玩 游戏 的 场景 ， 机 箱 内 风扇 狂 转 。 后 又 升级 到 
GTX980 卡 。 后 来 NV 陆 续 推出 980Ti、1080/1080Ti， 
冬瓜 哥 均 未 为 所 动 〈 主 要 是 因为 穷 ) 。 截 至 目前 ， 
NV 在 消费 级 市 场 的 卡 皇 为 GTX1080Ti， 如 图 8-335 所 
示 。 但 是 冬瓜 哥 想 再 多 等 几 代 再 升级 ， 或 许 到 4080Ti 
的 时 候 ， 能 以 8 k 分 辩 率 畅 玩 游戏 。 

我 们 再 来 看 看 ATI 的 发 展 之 路 。ATI 公 司 于 1985 
年 成 立 ， 其 在 推出 Wonder 和 Mach 两 个 系列 的 2D 加 速 
显卡 后 ， 于 1996 年 推出 名 为 3D Rage 的 3D 加 速 卡 ， 
其 GPU 芯片 其 实 是 基于 Mach 芯 片 通过 升级 固件 而 支 
持 3D 栅 格 化 和 纹理 填充 计算 的 ， 与 S3 ViRGE 做 法 类 
似 。 同 年 ，ATI 公 司 又 推出 了 3D Rage ПН, ВН 
基于 第 一 代 Rage 做 了 一 些 增强 ， 并 提升 了 核心 和 显存 
运行 频率 ， 使 得 3D 性 能 获得 大 概 50% 的 提升 。 不 过 ， 
Rage 和 Rage II 都 不 支持 Windows 操 作 系 统 下 的 OpenGL 
API， 但 支持 Direct3D 5.0, QuickDraw 3D Rave, 
Criterion RenderWare， 以 及 Argonaut BRender 这 些 非 
主流 API。 

1997 年 ， 也 就 是 NV 发 布 Riva 128 的 那 一 年 ，ATI 
发 布 了 Rage Pro， 制 程 从 500 nm 升级 到 350 ша. НИЕ 


Code 


Model Launch peed Fab (nm) 
STG-2000 September 1995 NV1 500 
Riva128 April 1997 NV3 350 
Riva128ZX February 23, 1998 NV3 350 
Riva TNT March 23, 1998 NV4 350 
Vanta March 22, 1999 №6 250 
Vanta LT March 2000 №6 250 
Riva ТМТ2 M64 October 1999 №6 250 
Riva TNT2 March 15, 1999 №5 250 
Riva ТМТ2 Pro October 12, 1999 NV5 220 
Riva TNT2 Ultra March 15, 1999 NV5 250 
GeForce 256 SDR October 11, 1999 муто т 
GeForce 256 DDR February 1, 2000 мо ” 
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硬件 上 对 Rage II 做 了 增强 ， 包 括 新 设计 的 三 角形 栅 格 
化 引擎 、 增 强 的 透视 修正 计算 、 雾 化 和 透明 度 的 支 
持 、 高 光 光 照 支持 等 。 该 卡 支持 Direct3D 6.0， 其 性 能 
可 与 NV 的 Riva 128 以 及 Voodoo 一 争 高 下 ， 但 是 由 于 不 
支持 OGL API， 市 场 反 响 很 一 般 。 

1998 年 ，ATI 推 出 Rage 128 芯 片 ， 与 Riva TNT 
一 样 ， 它 内 含 双 像 素 处 理 单元 ， 其 级 别 与 Riva TNT 
和 Voodoo3 持 平 ， 性 能 也 相当 。1999 年 ATI 又 推出 了 
Rage 128 Pro 和 Ultra 型 号 ， 其 对 标 NV 的 Riva TNT2 
Pro/Ultra， 增 强 了 栅 格 化 单元 和 纹理 过 滤 单 元 ， 支 持 
АСР x4 接 口 。 但 是 由 于 其 核心 和 显存 运行 频率 略 低 
于 TNT2， 在 对 比 测试 时 处 于 劣势 。 如 图 8-336 所 示 为 
ATI 的 Rage 128, Rage 128 Pro 显 卡 以 及 Rage 128 芯 片 
架构 示意 图 。 

ATI Rage 128 通 过 使 用 更 大 容量 的 显存 以 及 纹理 
压缩 技术 支持 更 大 的 纹理 分 辩 率 。 纹 理 分 辩 率 对 游戏 
体验 至 关 重 要 ， 如 图 8-337 所 示 ， 清 晰 锐利 的 纹理 感 
觉 很 不 一 样 。 利 用 有 限 的 显存 ， 对 纹理 进行 压缩 ， 提 
取 时 解压 缩 ， 也 能 变相 增加 纹理 分 辨 率 ， 如 图 右 侧 所 
示 为 开启 和 关闭 纹理 压缩 后 的 效果 对 比 。 

对 标 NV GeForce256 显 卡 的 ， 是 AII 于 2000 年 推出 
的 Radeon 芯 片 ， 其 支持 硬件 T&L， 支 持 Direct3D 7.0, 
如 图 8-338 所 示 。 

如 图 8-339 所 示 为 黄 定 ATT 市 场地 位 的 早期 产品 一 
览 。 至 此 ，AITI 与 Nvidia 这 两 大 GPU 厂商 就 开始 了 双 雄 
逐鹿 的 生涯 。 


Interface Core clock (MHz) Memory clock (MHz) 
PCI 12 75 
АСР 2х, РС! 100 100 
АСР 2х, PCI 100 100 
АБР 2x, PCI 90 110 
AGP 4x 100 125 
AGP 4x 80 100 
AGP 4x, PCI 125 150 
АСР 4x, PCI 125 150 
AGP 4x 143 166 
AGP 4x 150 183 
AGP 4xPCI 120 166 
AGP 4xPCI 120 150 


图 8-334 ”奠定 Nvidia 地 位 的 早期 产品 一 览 
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图 8-338 ”ATI 的 Radeon 7500 显 卡 


Core clock Memory dock Core clock Memory clock 
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30 Rage TE га 四 а Radeon VE/7000 Feb19,2001 кумю 180 aeara Паз 2 
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图 8-339 ” 葛 定 ATI 市 场地 位 的 早期 产品 一 览 


AII 后 来 陆续 推出 了 如 下 系列 显卡 : Radeon 8000 
(开始 支持 可 编程 泻 染 管线 ) 、Radeon 9000, Radeon 
R300, Radeon X700 & X800, Radeon X1000, Radeon 
HD 2000, Radeon HD 3000, All-in-Wonder, Radeon 
HD 4000, Radeon HD 5000, Radeon HD 6000, 
Radeon HD 7000, Radeon HD 8000, Radeon R5/R7/R9 
200, Radeon R5/R7/R9 300, Radeon RX 400, Radeon 
ВХ 500 ， 以 及 在 2017 年 新 推出 的 Radeon RX Vega 系 列 
(如 图 8-276 所 示 ) > 
在 NV 和 AII 互 玖 的 这 17 年 中 ， 综 合 来 讲 是 NV 占 
上 风 。ATII 也 曾 有 超越 NV 的 时 候 ， 比 如 Radeon 9700 
Pro 被 认为 是 当时 的 卡 皇 ，Radeon HD4870/5870 的 销 
量 也 非常 高 。2006 年 ，AII 业 绩 下 滑 较 大 ， 被 当时 与 
Intel 竞 争 处 于 辉煌 时 期 末 的 AMD 收 购 。 
不 过 ，AMD 于 2017 年 推出 了 EPYC CPU， 在 性 能 
上 已 经 与 Intel 持 平 ， 而 价格 却 低 得 多 。 另 外 ， 在 GPU 
方面 ，AMD 也 在 节 节 追赶 。 冬 瓜 哥 也 希望 AMD 尽 快 
推出 能 够 与 NVidia 抗 衡 的 产品 ， 届 时 一 定 毫 不 犹豫 
支持 ! 


8.3 ”结语 和 期 盼 


现在 回顾 如 图 8-340 所 示 的 精细 震撼 的 图 形 画 
质 ， 你 可 能 就 不 会 觉得 惊讶 了 ， 只 要 提高 纹理 分 辨 
率 ， 提 高 模型 精细 度 ， 利 用 各 种 Shader 增 加 后 期 特 
效 ， 最 重要 的 是 ， 提 升 画 面 分 辩 率 到 1 k、2 k 甚 至 4 К, 
加 上 现代 GPU 强大 的 算 力 ， 生 成 这 种 稠密 精细 亮丽 的 
画面 也 就 不 足 为 奇 了 ， 而 且 还 是 每 秒 能 够 生成 数 十 
帧 。 所 以 ， 我 们 应 该 感叹 的 ， 是 GPU 芯片 制程 工艺 
和 架构 的 发 展 ， 是 数字 逻辑 的 强大 力量 以 及 人 类 的 
智慧 和 科学 技术 水 平 的 高 速 发 展 ， 应 该 畅想 的 是 未 
来 无 限 的 可 能 性 ， 应 该 做 的 是 沉 下 心 来 学 习 积 累 和 
总 结 。 

计算 机 声音 和 图 形 两 大 领域 ， 尤 其 是 图 形 领域 ， 
是 非常 奇妙 、 缤 纷 复杂 的 世界 。 然 而 这 两 个 领域 都 要 
牵扯 到 信号 处 理 、 高 等 数学 、 几 何等 方面 的 知识 ， 而 
这 些 知识 单 拿 出 来 看 ， 的 确 非 常 枯燥 、 难 懂 。 冬 瓜 哥 
并 不 是 这 两 个 领域 的 从 业者 ， 只 是 尝试 利用 骂人 的 情 
怀 和 毅力 来 梳理 和 用 更 通俗 、 更 长 的 篇 幅 来 重新 演绎 
之 。 对 于 专业 人 士 而 言 ， 一 句 话 就 能 阐述 “明白 ”， 
但 是 对 于 初学 者 ， 可 能 要 用 几 页 才能 阐述 彻底 。 冬 瓜 
哥 认 为 ， 耗 费 10 页 纸 讲 清楚 一 个 问题 ， 相 比 耗费 一 段 
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话 而 让 人 看 了 一 头 雾 水 ， 前 者 更 有 价值 ， 对 得 起 这 10 
页 纸 ， 对 得 起 这 木 浆 和 墨水 ， 最 关键 的 ， 应 该 对 得 起 
读者 付出 的 时 间 和 精力 。 如 果 读 者 阅 后 能 有 个 大 框 
架 ， 然 后 有 目的 地 去 继续 学 习 信号 处 理 、 高 等 数学 等 
方面 的 内 容 ， 那 将 是 大 善之 结局 。 冬 瓜 哥 相信 阅读 此 
书 的 高 中 生 、 大 学 生 们 一 定 会 有 额外 、 无 价 的 收获 。 
玩 网 游 ， 手 游 ， 单 机 PC 游戏 ， 如 果 只 是 被 游戏 所 奴 
役 ， 那 么 你 真 的 很 失败 ， 如 果 你 玩 出 了 名 堂 ， 那 你 真 
的 是 在 玩 游戏 。 如 图 8-341 所 示 为 历史 上 第 一 个 计算 
机 图 形 游戏 。 


图 8-341 世界 上 第 一 个 计算 机 图 形 游戏 


本 章 到 此 结束 ， 愿 意 继续 沉浸 在 计算 机 声音 和 图 
形 处 理 领域 的 朋友 可 以 留 下 继续 耕耘 。 

下 面 有 请 其 他 朋友 跟随 冬瓜 哥 进 入 下 一 章 的 探 
索 : 超级 计算 机 。 实 际 上 ，GPU 本 身 就 是 一 个 超级 计 
算 机 ， 其 内 部 有 数 千 个 ALU 运 算 单元 ， 理 论 上 可 以 
并 行 数 千 个 线程 。 而 相 比 之 下 CPU 内 部 的 核心 数量 就 
太 少 了 ，CPU 内 部 的 电路 资源 更 多 被 用 作 各 级 缓存 ， 
缓存 相 比 逻辑 门 而 言 会 占用 更 大 比例 的 电路 面积 。 同 
时 CPU 内 部 还 有 复杂 的 流水 线 控 制 模块 ， 以 及 分 支 预 
测 、 超 线程 控制 等 模块 。 此 外 ，CPU 的 指令 集 异 常 庞 
大 ， 而 GPU 指令 集 则 非常 精简 。 

如 图 8-342 所 示 ，GPU 作 为 一 台 芯 片上 的 超级 
计算 机 ， 其 使 用 PCIE 与 另 一 台 简 单 计算 机 相连 。 其 
中 Integrated CPU 一 般 采 用 ARM 核 心 通用 CPU， 比 如 
Nvidia 的 GPU 内 部 的 总 控 CPU 普 遍 采 用 单 核心 高 频 
ARM。 超 级 计算 机 的 本 质 ， 就 是 大 规模 并 行 计算 机 ， 就 
是 用 成 千 上 万 甚至 十 几 万 几 十 万 个 运算 单元 来 同时 计算 。 


图 8-340 令 冬 瓜 哥 佩 服 得 五 体 投 地 的 《巫师 3》 游 戏 中 的 场景 画面 
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前 文中 提 到 过 ，GPU 实 际 上 是 利用 强大 的 算 力 来 
现场 生成 图 像 。 但 是 如 果 存 在 某 种 带宽 非常 高 、 容 量 
非常 大 、 成 本 非常 低 的 存储 介质 ， 比 如 全 息 存 储 方式 
如 果 在 将 来 得 到 广泛 应 用 ， 或 许 那 时 候 可 以 不 再 依靠 
计算 来 泻 染 图 像 ， 而 是 将 一 个 场景 中 所 有 角度 的 图 像 
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都 存储 下 来 ， 并 予以 浅 加 工 ， 进 入 游戏 之 后 ， 通 过 读 
取 这 些 场 图 片 来 对 场景 进行 拼接 ， 将 计算 需求 转换 为 
对 存储 空间 和 速度 的 需求 。 这 样 GPU 就 仅 用 于 前 期 对 
游戏 场景 进行 预 泻 染 ， 以 及 承担 一 些 科 学 计算 的 作用 
了 。 或 许 这 一 天 的 到 来 并 不 会 很 慢 。 
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第 6 章 中 ， 冬 瓜 哥 向 大 家 全 面 介绍 了 多 核心 

CPU、 众 核心 CPU， 以 及 多 处 理 器 系统 的 体系 
结构 。 从 中 大 家 可 以 感受 到 一 点 ， 那 就 是 随 着 核心 数 
量 的 增加 ， 缓 存 一 致 性 成 为 一 个 制约 系统 规模 的 关键 
限制 ， 如 果 没有 缓存 一 致 性 问题 ， 那 么 理论 上 可 以 实 
现 更 多 核心 运行 在 同一 个 地 址 空间 中 。 但 是 要 想 避 开 
缓存 一 致 性 问题 ， 同 时 要 保证 对 软件 的 透明 ， 则 需要 
硬件 上 完全 去 除 Cache 这 一 层 ， 这 样 所 有 的 数据 统一 
集中 存储 在 RAM 中 并 且 时 刻 只 有 唯一 的 一 份 副本 。 这 
样 做 会 大 幅 降低 性 能 ， 尤 其 是 那些 不 访问 共享 变量 或 
者 共享 变量 被 修改 的 次 数 很 少 的 多 线程 程序 ， 会 因此 
受到 无 辜 牵 连 。 如 果 保 留 Cache， 同 时 又 想 规避 缓存 
一 致 性 问题 从 而 不 需要 底层 硬件 来 实现 CC， 则 需要 
修改 那些 使 用 共享 变量 的 程序 ， 让 程序 自行 解决 一 致 
性 问题 ， 比 如 采用 各 种 Flush Cache 类 的 CPU 指令 。 这 
样 势必 也 会 影响 一 部 分 性 能 ， 但 是 却 可 以 提升 系统 的 
扩展 性 ， 增 加 核心 数量 ， 从 而 可 以 有 更 多 的 核心 来 执 
行 那些 不 必 访 问 共享 变量 的 线程 。 

人 们 为 何 会 如 此 追求 核心 数量 ? 真 的 有 某 种 程序 
需要 成 千 上 万 甚至 几 十 万 个 线程 同时 运行 么 ? 对 于 个 
МЕ (ТЕМ, ВНИИ, 
或 者 并 不 必须 。 比 如 视频 转 码 可 能 算是 个 人 业务 ， 如 
果 用 一 万 个 核心 同时 计算 可 能 会 在 更 短 时 间 内 完成 ， 
但 是 对 你 来 讲 ， 姬 一 下 眼 和 是 两 下 眼 ， 都 已 经 是 “ 非 
常 快 ”了 。 而 对 于 一 些 特 殊 行 业 应 用 ， 尤 其 是 计算 
机 辅助 工程 计算 类 业务 场景 ， 核 心 数量 太 少 的 系统 的 
算 力 还 真 的 是 无 法 满足 要 求 ， 比 如 对 气象 数据 进行 运 
算 从 而 生成 天 气 预报 ， 如 果 运 算 过 程 本 身 需 要 好 几 天 
的 话 ， 那 就 没有 任何 意义 。 数 据 量 有 这 么 大 ? 计算 过 
程 有 这 么 复杂 ? 需要 好 几 天 ? 是 的 ， 如 果 用 你 的 笔记 
本 电脑 CPU 计 算 的 话 ， 可 能 需要 几 个 月 也 说 不 定 。 那 
么 ， 这 些 科学 计算 到 底 都 在 算 些 什么 东西 ? 具体 是 怎 
么 算 的 ? 为 什么 这 么 慢 ? 


91 科学 计算 到 底 在 算 些 什么 


本 节 冬 瓜 哥 就 用 一 个 分 子 动力 学 计算 的 例子 来 
向 大 家 介绍 科学 计算 到 底 都 算 了 些 什么 东西 ， 又 是 怎 
么 把 运算 过 程 用 多 线程 来 并 行 分 担 的 。 在 这 之 前 ， 大 
家 需要 先 了 解 一 些 基 本 知识 ， 也 就 是 蛋白 质 分 子 的 
故事 。 


9.1.1 蛋白 质 分 子 的 故事 


冬瓜 哥 在 高 中 的 时 候 就 迷 上 了 从 分 子 层面 了 解 生 
物体 底层 的 运行 机 制 ， 曾 经 立志 要 进入 细胞 和 分 子 生 
物 研究 所 搞 研究 ， 把 这 些 东 西 研究 透彻 。 没 曾 想 20 年 
后 却 去 研究 了 计算 机 底层 的 运行 机 制 ， 而 且 发 现 生物 
分 子 的 作用 逻辑 与 计算 机 电路 和 程序 的 作用 逻辑 有 共 
通 点 ， 不 得 不 感慨 这 造化 的 奇妙 之 处 ， 同 时 也 感慨 当 
年 没 能 如 愿 进入 生物 领域 耕耘 

冬瓜 哥 当 初 迷 上 研究 生物 大 分 子 ， 是 因为 其 并 不 
是 单纯 的 分 子 ， 而 是 一 部 精密 的 机 器 ， 一 部 似乎 拥有 
智能 的 机 器 ， 比 如 能 将 细胞 内 的 钾 离 子 排出 胞 外 同时 
从 胞 外 吸收 钠 离子 的 钠 钾 泵 蛋白 质 分 子 、 用 于 驱动 微 
生物 鞭毛 运动 的 分 子 马 达 、 用 于 免疫 系统 识别 外 来 大 
分 子 的 抗体 受 体 蛋 白 、 用 于 传递 生化 程序 信号 的 消息 
类 蛋白 分 子 ， 以 及 被 NK 细胞 分 泌 的 能 在 外 来 细胞 表 
面 穿 孔 的 穿孔 素 管道 蛋白 分 子 ( 于 是 冬瓜 哥 后 来 一 度 
又 迷 上 了 研究 分 子 免疫 学 ) 。 这 些 蛋 白质 分 子 广泛 分 
布 于 我 们 的 每 个 细胞 中 ， 冬 瓜 哥 瞬间 有 了 一 种 强烈 的 
满足 感 ， 感 觉 自己 的 身体 本 身 所 蕴含 的 物质 逻辑 ， 比 
任何 身 外 之 物 都 要 沉 甸 ， 研 究 造物 者 的 物质 遗产 ， 比 
获取 人 造 外 来 物质 让 人 更 感觉 踏实 ， 我 一 出 生 就 拥有 
了 最 宝贵 的 财富 。 

一 切 故 事 将 从 一 个 细胞 开始 。 如 图 9-1 所 示 为 细 
胞 内 部 架构 示意 图 。 研 究 细胞 ， 冬 瓜 哥 自 感 比 研究 计 
算 机 体系 结构 还 要 有 趣 。 

高 中 生物 课 上 想必 大 家 都 学 过 ， 细 胞 膜 就 是 由 
磷脂 双 分 子 层 构成 的 海洋 ， 上 面 漂浮 着 各 种 蛋白 质 分 
子 ， 如 图 9-2 所 示 。 

那么 ， 细 胞 膜 上 的 这 些 蛋 白质 ， 到 底 是 些 什 么 东 
西 呢 ? 它们 都 有 什么 作用 呢 ? 下 面 从 一 个 氧气 运输 的 
故事 讲 起 。 


9.1.1.1 ”氧气 运输 的 故事 


血液 是 红色 的 ， 因 为 其 中 含 铁 ， 如 果 把 血液 说 
成 是 铁锈 水 的 话 ， 其 实 也 很 贴切 。 为 什么 要 含 铁 ? Bl 
为 氧气 分 子 可 以 结合 到 铁 原子 上 ， 这 就 是 血液 运输 氧 
气 的 方式 ， 用 铁 来 吸引 氧 分 子 。 那 么 为 什么 不 能 用 锌 
来 吸引 氧 ? 如 果 人 工 设计 一 下 的 话 ， 应 该 可 以 ， 但 是 
铁 是 宇宙 中 人 恒星 燃烧 之 后 最 终生 成 物 ， 含 量 丰 富 ， 或 
许 造物 者 直接 顺手 就 用 了 铁 原 子 了 。 那 么 ， 铁 在 血液 
中 以 什么 形式 存在 ? 经 过 科学 家 们 的 不 懈 努 力 ， 用 了 
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图 9-1 生物 细胞 内 部 架构 示意 图 
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图 9-2 细胞 膜 架 构 示意 图 


可 大 话 计算 机 一 一 计算 机 系统 底层 架构 原理 极限 剖析 


各 种 方式 ， 终 于 确定 了 ， 铁 存在 于 血红 细胞 表面 镶嵌 
着 的 大 量 血红 蛋白 分 子 内 部 。 后 来 ， 科 学 家 们 利用 
光 衍射 等 手段 ， 确 定 了 血红 蛋白 分 子 的 空间 构象 。 然 
而 ， 铁 原子 到 底 与 这 个 蛋白 分 子 中 的 哪个 原子 结合 ， 
存在 于 哪个 位 置 呢 ? 经 过 更 精细 的 测定 ， 铁 原子 首先 
位 于 一 个 叶 啉 环 上 ， 中 啉 是 一 种 环 状 有 机 分 子 ， 其 
中 4 个 氮 原 子 与 铁 形成 配 位 关系 。 中 啉 环 如 图 9-3 左 侧 
所 示 ， 铁 原子 就 待 在 环 中 心 孔 洞 内 。 这 个 环 加 上 铁 
原子 ， 就 是 所 谓 血红 素 ， 简 称 Heme。 缺 铁 ， 就 意味 
着 没有 足够 的 铁 原子 配 位 到 血红 素 上 ， 吸 引 的 氧 分 子 
就 不 够 ， 生 化 反应 强度 就 不 达标 ， 整 个 人 就 是 萎靡 不 
振 ， 因 为 物质 燃烧 不 起 来 ， 无 法 提供 足够 的 能 量 给 整 
个 细胞 。 


大 家 都 知道 植物 叶片 细胞 中 含有 叶绿素 ， 这 便 
是 为 什么 多 数 植物 都 体现 为 绿色 的 原因 。 叶 绿 素 的 
核心 成 分 也 是 这 样 一 个 环 ( 仅 有 少数 几 个 原子 位 置 
不 同 ) 夹 着 一 个 镁 原子 。 所 以 ， 铁 红 ， 镁 绿 。 


那么 ， 中 啉 环 又 接 在 了 什么 上 面 了 ? 根据 图 9-3 
右 侧 所 示 的 X 光 绕 射 分 析 ， 其 处 于 游离 状态 ， 不 与 任 
何 氨 基 酸 残 基 相 连 ， 直 接 嵌 入 到 血红 蛋白 大 分 子 内 部 
的 一 个 空隙 内 ， 其 周围 的 化 学 力 环境 刚好 能 够 把 这 个 
环 卡 住 ， 结 结实 实 的 。 同 时 ， 环 的 两 人 出， 各 有 一 个 组 
氮 酸 〈 简 称 His) 残 基 夹 住 这 个 环 ， 如 图 9-3 右 侧 所 示 
的 Histidine F8 和 E7。 

所 有 的 蛋白 质 分 子 ， 都 是 由 20 种 氨基 酸 的 全 部 或 者 
部 分 合成 的 。 氨 基 酸 分 子 在 生化 酶 的 促进 下 ， 按 照 DNA 
分 子 中 给 出 的 顺序 ， 一 个 一 个 被 水 合 衔接 起 来 ， 形 成 肽 
链 ， 这 条 肽 链 就 被 称 为 蛋白 质 的 一 级 结构 。 肽 链 形成 
后 ， 由 于 肽 链 上 的 氨基 酸 残 基 中 包含 的 各 种 原子 之 间 相 
互 作 用 ， 这 些 残 基 以 原子 间 的 各 种 作用 力 相 吸 相 斥 ， 最 
终 将 整 条 肤 链 折 又 成 各 种 形状 ， 有 的 形成 a 螺旋 ， 有 的 
形成 8 片 ， 有 的 则 形成 无 规则 loop， 这 属于 二 级 结构 。 
这 些 二 级 结构 在 空间 上 再 次 在 化 学 力作 用 下 相互 靠 
近 ， 形 成 具有 完整 三 维 构象 的 单 体 蛋白 质 分 子 ， 这 被 
称 为 三 级 结构 。 多 个 单 体 之 间 还 可 以 依靠 化 学 力 组 合 
起 来 形成 多 合体 ， 这 叫 作 四 级 结构 。 有 些 蛋 白质 只 是 
单 体 ， 有 些 则 是 多 合体 。 上 述 过 程 如 图 9-4 所 示 。 
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图 9-4 蛋白 质 分 子 的 四 级 结构 


血红 蛋白 就 是 一 个 四 合体 ， 如 图 9-5 所 示 ， 每 个 
单 体内 部 都 含有 一 个 血红 素 分 子 被 戏 入 。 

肺泡 将 呼吸 进来 的 空气 传递 给 毛细 血管 ， 在 这 
里 ， 氧 气 充分 与 静脉 血 接触 ， 氧 气 结合 到 血红 蛋白 中 
血红 素 的 铁 原子 上 ， 将 铁 原子 氧化 成 +3 价 ， 从 而 颜色 
变 为 鲜红 色 。 那 么 ， 吸 收 了 氧气 的 血红 蛋白 ， 下 一 步 
要 怎样 呢 ? 当然 是 要 用 氧气 去 燃烧 糖 了 ， 或 者 直接 烧 
葡萄 糖 ， 或 者 去 烧 一 下 脂肪 ， 最 终 形成 ATP 能 量子 ， 
这 就 像 变 形 金刚 们 总 是 要 储备 一 定 的 能 量 块 一 样 。 
些 能 量子 用 于 供给 其 他 蛋白 质 机 器 化 学 能 (具体 的 
供给 方式 见 本 书 尾声 部 分 ) ， 从 而 合成 生命 所 必需 
的 物质 ， 然 后 各 自 储备 、 按 需 利用 。 至 此 ， 冬 瓜 哥 
脑海 中 产生 千 万 个 问号 。 比 如 ， 氧 气 怎么 燃烧 糖 ， 
在 哪里 烧 (线粒体 ) ? 生 个 炉子 么 ? 怎么 引 燃 ? 烧 
完了 的 ATP 储 存在 哪里 ? 怎么 被 释放 ? 这 一 系列 的 问 
号 ， 激 发 着 冬瓜 哥 的 探索 欲望 。 可 惜 冬瓜 哥 在 大 学 
期 间 把 时 间 浪 费 在 了 太 多 没 意 义 的 东西 上 ， 没 能 延 
续 这 种 探索 。 

话说 回来 ， 吸 收 了 氧气 的 血红 素 ， 会 产生 形变 ， 
如 图 9-6 所 示 ， 整 个 蛋白 质 分 子 内 部 会 受到 一 定 的 牵 
拉 ， 构 象 改变 ， 包 括 中 啉 环 本 身 也 受到 牵 拉 。 那 两 
MAARRE (His) 就 是 一 种 探 针 ， 氧 分 子 结合 之 
后 ， 化 学 力 环境 改变 ，His 受 到 牵 拉 或 者 排斥 ， 将 这 
种 变化 传递 到 整个 蛋白 分 子 。 蛋 白 分 子 构象 变化 之 
后 ， 便 可 以 导致 下 游 逻辑 的 触发 。 


9.1.1.2 ”更 复杂 的 生化 逻辑 是 如 何 完成 的 
各 种 生化 酶 ， 能 够 加 速 化 学 反应 ， 比 如 磷酸 葡 
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萄 糖 激 酶 、 谷 氨 酰 转 肽 酶 。 这 些 蛋白 质 大 分 子 ， 能 够 
主动 捕获 反应 物 ， 利 用 物理 和 化 学 力 将 这 些 反应 物 结 
合 在 其 内 部 的 上 四 坑内 ， 使 用 “能 量 ”克服 反应 物 接触 
时 候 产生 的 阻碍 ， 成 功 将 反应 物 联结 在 一 起 ， 生 成 新 
的 物质 。ATP 作 为 一 种 广 谱 能 量子 ， 结 合 到 和 蛋白质 分 
子 上 之 后 ， 由 于 反应 物 A 和 B 之 间 的 强行 接触 会 导致 
整个 蛋白 质 三 维 构象 产生 “ 挤 压 ” 形 变 ， 这 种 形变 被 
传递 到 ATP 分 子 上 ， 从 而 将 ATP 的 一 个 磷酸 键 压 断 
相当 于 ATP 将 这 股 力量 传递 给 了 反应 物 分 子 ， 从 而 强 
行将 反应 物 结合 了 起 来 。 也 就 是 说 ，ATP 分 子 将 其 磷 
酸 键 保存 的 能 量 ， 传 递 给 了 反应 物 ， 这 就 像 汽 油 在 气 
和 缸 中 受 压 爆炸 ， 将 动力 传递 给 车 轮 一样 。 有 些 反应 物 
很 强悍 ， 需 要 更 多 能 量 ， 一 分 子 ATP 不 足以 提供 足够 
能 量 ， 所 以 一 些 生化 酶 蛋白 分 子 上 具有 多 个 ATP 结 合 
点 ， 相 当 于 单 缸 发 动机 变 成 多 缸 发 动机 。 上 述 过 程 
可 以 用 如 下 等 式 表示 : 反应 物 A+ 反 应 物 B+ATP〈 能 
量子 ) 一 -新 反应 物 +ADP+ 磷 酸 ， 生 化 酶 写 在 等 号 上 
方 。 可 以 看 到 ， 生 化 酶 这 个 蛋白 质 大 分 子 ， 就 像 一 
种 CPU 一 样 ， 有 输入 ， 有 输出 ， 其 内 部 是 有 执行 逻辑 
的 ， 然 而 ， 它 又 是 一 个 专用 CPU， 只 能 接收 特定 的 输 
入 ， 给 出 特定 的 输出 。 细 胞 内 存在 大 量 不 同 的 蛋白 质 
分 子 ， 各 完成 不 同 的 功能 ， 比 如 有 促进 生化 反应 的 生 
化 酶 、 有 负责 肌肉 运动 的 微 管 蛋白 、 有 负责 结合 异物 
的 抗体 蛋白 、 有 负责 传递 信号 的 信使 蛋白 、 有 负责 在 
细胞 内 和 细胞 外 运输 各 种 离子 的 离子 通道 蛋白 、 有 免 
疫 调节 的 干扰 素 蛋 白 ， 等 等 ， 数 不 胜 数 。 每 一 个 蛋白 
质 分 子 都 可 以 认为 是 一 个 专用 CPU。 而 ATP 分 子 ， 则 
是 所 有 这 些小 机 器 的 通用 能 量子 。 


图 9-6 氧气 结合 之 后 血红 素 周围 的 构象 变化 
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图 9-7 钠 钾 泵 架构 和 作用 原理 示意 图 


9.1.2 ”如 何 模拟 蛋白 质 分 子 自 折 双 过 程 


一 维 肽 链 被 核糖 体 读 取 DNA 中 的 信息 ， 然 后 使 用 
氨基 酸 分 子 加 工 而 成 之 后 ， 在 原子 间 相互 作用 力 的 影 
响 之 下 ， 自 然 折 芝 卷 曲 成 三 维 立体 结构 。 科 学 家 们 想 
看 看 这 个 过 程 到 底 是 怎么 运作 的 ， 是 不 是 真 的 可 以 自 
ЗЛА, ЖИЗНИ ИИ, FER 
想 直接 根据 肽 链 原 子 间作 用 力 计 算出 整个 运动 过 程 。 

还 记得 高 中 物理 题 最 难 的 部 分 在 哪 么 ? 就 是 那 
些 力 和 加 速度 、 动 量 动能 冲 量 的 题目 。 我 们 随便 计算 
个 受 力 分 解 的 题目 ， 都 会 手 胸 顿 足 “这 题 太 难 了 ”。 
可 想 而 知 ， 计 算数 万 个 原子 之 间 的 相互 作用 得 有 多 复 
杂 。 不 过 ， 该 过 程 本 质 上 其 实 就 是 牛顿 运动 力学 、 对 
了 =ma 的 求解 。 一 个 大 分 子 中 的 原子 会 受到 其 周边 原 
子 发 来 的 各 个 方向 的 各 种 作用 力 ， 比 如 静电 力 、 化 学 
键 、 范 德 华 力 等 。 我 们 只 要 求 出 最 终 的 合力 方向 ， 就 
会 知道 该 原子 即将 向 哪 移动 ， 加 速度 为 多 少 ， 在 多 长 
时 间 之 后 会 达到 什么 速度 。 

但 是 ， 随 着 所 有 原子 的 移动 ， 有 些 快 有 些 慢 ， 
各 自 朝 着 不 同方 向 移动 ， 每 个 原子 的 受 力 状况 又 会 随 
之 改变 ， 而 变化 的 力 又 会 产生 变化 的 加 速度 ， 从 而 又 
反馈 回来 使 得 受 力 的 变化 。 这 种 鸡 生 蛋 、 蛋 生 鸡 的 问 
题 ， 显 然 需 要 使 用 我 们 在 大 学 高 等 数学 所 学 到 的 技 
能 一 一 微 积分 的 思想 来 求解 。 我 们 在 学 校 中 被 没有 任 
何 目的 的 学 习 摧残 了 太 长 时 间 ， 到 了 大 学 依然 如 此 ， 
只 知道 要 学 微 积 分 ， 算 一 堆 公式 做 一 堆 题目 ， 却 最 终 
不 知道 学 来 何 用 ， 这 一 路 上 ， 越 来 越 失去 了 目的 性 ， 
学 习 过 程 成 了 一 种 麻木 的 被 动 的 脑力 运动 。 如 果 在 大 
学 时 能 被 激发 并 冠 以 一 种 目的 ， 比 如 研究 某 种 能 够 治 
疗 疾病 的 蛋白 质 分 子 为 切入 口 ， 然 后 引出 这 些 理论 、 
技术 、 手 段 ， 冬 瓜 哥 一 定 会 更 加 深刻 掌握 微 积分 这 门 
工具 。 可 惜 ， 现 在 早已 忘 光 。 


在 一 个 连续 运动 和 反馈 的 系统 内 ， 如 果 能 够 候 
设 在 某 段 极其 微小 的 时 间 内 ， 运 动 的 结果 不 反馈 到 源 
头 ， 受 力 不 发 生变 化 ， 那 么 这 个 问题 就 好 求解 多 了 。 
只 要 将 时 间 切 分 得 足够 小 ， 算 出 每 一 小 步 的 结果 ， 然 
后 将 它们 积累 成 一 大 步 ， 每 一 小 步 范围 内 可 以 近似 认 
为 所 有 原子 的 受 力 状况 暂且 没有 变化 ， 就 可 以 得 出 最 
终 的 近似 结果 。 

那么 ， 这 一 小 步 精 确 到 多 少 呢 ? 这 个 是 可 以 人 
为 定义 的 ， 目 前 一 般 被 定义 在 飞 秒 级 ， 也 就 是 10 飞 秒 
左右 ， 也 就 是 将 合力 加 在 某 个 原子 上 10fs СОЖ), 
计算 分 子 中 每 个 原子 移动 到 的 目标 位 置 坐标 ， 这 10fs 
内 可 以 近似 认为 所 有 原子 的 受 力 仍然 不 变 ，F 恒 定 。 
但 是 本 质 上 ， 任 何 微小 的 变化 都 会 持续 影响 受 力 ,但 
是 大 自然 底层 是 如 何 做 到 极限 精确 且 连 续 的 ， 这 不 得 
而 知 。 量 子 理论 告诉 我 们 ， 造 物 者 的 物质 基础 其 实 也 
不 是 无 限 连续 的 ， 总 有 一 个 最 小 步 进 ， 我 们 目前 还 无 
从 知晓 ， 或 许 积分 的 思想 也 正 预 示 着 自然 底层 的 确 就 
是 有 最 小 移动 单位 的 ， 比 如 一 个 空间 场 。 或 者 这 样 理 
解 : 反馈 过 程 也 是 需要 一 定时 间 的 ， 在 新 数值 还 没有 
反馈 到 系统 的 输入 端 之 前 ， 系 统 的 输入 值 也 的 确 是 恒 
定 的 。 不 管 如 何 ， 一 切 蛛丝马迹 都 预示 着 世界 底层 其 
实 也 是 步 进 发 展 的 ， 正 如 数字 电路 的 状态 是 按照 时 钟 
周期 为 一 个 步 进 向 前 变化 的 一 样 。 

模拟 完 这 一 小 步 ， 然 后 再 次 根据 各 原子 的 新 空间 
坐标 ， 为 每 个 原子 计算 出 新 的 合力 ， 再 走 一 小 步 ， 最 
终 走 到 某 个 稳定 的 点 ， 引 力 斥 力 平衡 ， 不 能 走 为 止 ， 
整个 过 程 需 要 庞大 的 计算 量 。 

假设 我 们 采用 单线 程 来 计算 上 述 步骤 ， 这 个 线程 就 
需要 一 个 原子 一 个 原子 地 挨个 算 。 假 设 整个 系统 含 10 万 
个 原子 ， 那 么 整个 过 程 就 像 推 倒 一 组 10 万 张 多 米 诺 骨 
牌 一 样 ， 必 须 串 行进 行 。 而 如 果 有 10 万 个 线程 同时 推 
倒 每 张 骨牌 ， 这 个 过 程 将 瞬间 结束 ， 人 性 能 大 幅 提升 。 


9.1.3 ”将 模拟 过 程 映射 为 多 线程 并 行 计算 


那么 上 述 过 程 具体 应 该 如 何 映射 到 多 个 线程 并 行 
运算 ? 比如 ， 可 以 以 原子 为 单位 ， 每 个 线程 负责 计算 
每 个 原子 在 10fs 后 将 移动 到 哪个 位 置 ， 也 就 是 空间 坐 
标 。 当 然 ， 需 要 先 初始 化 好 对 应 的 数据 结构 ， 比 如 每 
个 原子 都 用 一 张 表 来 追踪 它们 的 各 种 属性 ， 包 括 相 邻 
原子 的 表 的 指针 、 本 原子 的 空间 坐标 值 、 初 速度 、 当 
前 速度 、 当 前 受 力 值 等 。 

每 个 线程 的 入 口 函数 的 输入 值 是 周边 原子 的 作 
用 力 ， 由 于 原子 间 力 是 短程 作用 力 ， 所 以 距离 较 远 的 
原子 作用 力 就 可 以 忽略 ， 一 般 只 考虑 其 化 学 键 链条 上 
的 3 个 原子 对 其 的 作用 力 ， 超 过 3 个 以 后 的 原子 认为 其 
作用 力 为 0。 输 入 值 还 包括 该 原子 的 初始 三 维 坐标 位 
置 以 及 该 原子 的 速度 〈 初 始 速度 为 0 或 者 某 一 既定 速 
度 ) 。 输 出 值 则 是 在 牛顿 力学 公式 的 作用 之 下 经 过 
10fs 加 速 之 后 该 原子 的 新 的 空间 坐标 和 速度 矢量 ， 并 
且 这 些 输出 值 记 录 在 各 自 的 表 中 。 

每 个 线程 中 又 会 有 大 量 函数 相互 作用 。 有 的 函数 
会 专门 根据 当前 原子 的 化 合 价 以 及 与 其 化 合 的 其 他 原 
子 的 元 素 类 别 计算 静电 力 。 有 的 函数 则 负责 计算 氧 键 
力 、 范 德 华 力 等 ， 这 些 力 的 计算 公式 有 些 非常 复杂 ， 
需要 较 大 的 运算 量 。 最 后 ， 求 合力 F， 算 出 初速 度 为 
0, УЖЕ, Жут, 1=10 fs 之 后 的 该 原子 的 位 置 
和 速度 。 最 后 这 一 步 相信 高 中 物理 及 格 的 朋友 都 可 以 
算出 来 了 。 

那么 ， 第 一 个 10fs 的 模拟 运算 结束 之 后 (注意 ， 
并 不 是 说 运算 过 程 持续 了 10fs， 而 是 说 算出 原子 运动 
10fs 后 的 速度 和 坐标 ， 这 个 运算 过 程 耗费 的 时 间 远 大 
于 10fs) ， 应 该 怎么 办 呢 ? 当然 是 要 把 计算 完 的 值 更 
新 到 每 个 原子 对 应 的 结构 体 表 的 对 应 项 目 中 。 然 后 
呢 ? 当然 是 每 个 线程 都 需要 从 本 原子 相 邻 的 其 他 原 
子 〈 不 超过 3 级 ) 的 记录 表 中 取出 它们 各 自 的 空间 坐 
标 ， 根 据 各 种 力 计 算出 本 原子 在 新 位 之 下 所 受 的 新 的 
合力 矢量 ， 然 后 继续 开始 运算 再 一 个 10fs 之 后 本 原子 
的 坐标 和 速度 值 了 。 就 这 样 ， 以 10fs 为 步 进 一 直 向 前 
推进 。 

这 个 过 程 中 会 产生 一 个 潜在 问题 ， 即 在 多 核心 计 
算 机 系统 中 ， 多 线程 在 时 间 上 是 物理 并 发 执行 的 ， 如 
果 某 个 线程 运算 较 快 ， 先 结束 了 ， 而 其 相 邻 原子 对 应 
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的 线程 运算 较 慢 尚未 结束 ， 那 么 先 结束 的 线程 直接 去 
读 相 邻 原子 的 记录 表 取 出 坐标 ， 取 出 的 将 会 是 旧 值 ， 
从 而 导致 运算 错误 。 必 须 实现 一 种 方式 ， 让 相互 依赖 
的 线程 之 间 形 成 一 种 等 待 关系 ， 仅 当 所 有 线程 都 执行 
到 某 个 步骤 之 后 ， 才 能 继续 下 一 步 的 执行 ， 这 种 方式 
被 称 为 屏障 (Barrier) 。 这 个 概念 我 们 在 第 6 章 介绍 
访 存 的 时 空 一 致 性 时 初步 涉及 过 。 互 斥 锁 、 屏 障 ， 都 
是 多 线程 同步 的 方式 ， 各 自 应 用 场景 也 不 同 。 

如 图 9-8 所 示 ， 在 每 个 线程 的 相同 位 置 插入 一 个 
线程 屏障 0 函数 ， 该 函数 内 部 会 维护 一 个 加 锁 的 共享 
变量 ， 每 个 线程 执行 到 这 个 函数 之 后 ， 就 会 将 该 变量 
的 值 -1。 仅 当 所 有 线程 都 执行 了 该 函数 之 后 ， 该 变量 
的 值 就 会 变 为 0， 仅 当 该 值 变 为 0， 才 会 导致 该 函数 返 
回 ， 从 而 继续 执行 后 续 逻 辑 。 本 例 中 则 是 跳 转 到 while 
循环 初始 处 继续 执行 ， 也 就 是 利用 新 的 坐标 和 速度 继 
续 计算 10fs 之 后 的 坐标 和 速度 。 


如 果 只 想 看 该 分 子 最 终 折 滞 之 后 的 样子 ， 那 么 
计算 过 程 中 每 一 小 步 的 数据 无 须 保存 ， 因 为 如 果 都 
保存 的 话 可 能 可 能 导致 数据 量 庞大 。 但 是 一 般 来 讲 
保存 起 来 还 是 更 划算 的 ， 一 旦 后 续 需 要 ， 就 不 用 重 
新 算 一 遍 了 ， 或 者 比如 每 1000 步 保存 到 硬盘 一 次 。 
被 保存 下 来 的 中 间 数 据 后 续 还 可 以 用 来 生成 连续 的 
动画 ， 感 官 效果 会 更 好 。 


现在 你 应 该 知道 为 什么 这 些 计算 场合 下 要 求 并 发 
线程 数量 越 多 越 好 了 。 

那么 ， 科 学 家 们 只 是 想 单纯 地 模拟 蛋白 质 折 圣 
过 程 么 ? 当然 不 是 。 其 最 终 目 的 是 为 了 研究 蛋白 质 的 
运动 行为 ， 从 而 为 药物 开发 、 疾 病 治疗 等 提供 参考 数 
据 。 当 然 ， 出 于 单纯 好 奇 为 目的 来 研究 的 人 一 定 也 
有 ， 不 过 由 于 进行 这 种 计算 需要 耗费 大 量 计算 资源 和 
电力 ， 这 可 都 需要 资金 支持 ， 所 以 ， 没 有 能 够 赚 取 利 
润 的 目标 作为 支撑 ， 就 很 难得 到 机 会 去 研究 ， 除 非 有 
老 一 辈 科学 家 们 在 纸 上 进 行 运算 的 那 股 毅 力 ， 当 然 ， 
说 不 定 算 着 算 着 还 能 自己 设计 出 一 个 新 型 计算 机 来 。 
另外 一 个 目的 ， 则 是 对 于 一 些 人 工 合成 的 蛋白 质 分 子 
的 属性 研究 。 比 如 入 工 合成 一 段 在 DNA 中 没有 出 现 过 
的 序列 ， 或 者 DNA 中 存在 但 是 被 封存 而 并 没有 被 表 


线程 #0 : 线程 #1 : 线程 #2 : 

While ( 未 达到 停止 计算 条 件 ) { Ме ( 未 达到 停止 计算 条 件 ) { While ( 未 达到 停止 计算 条 件 ) { 
计算 当前 速度 和 坐标 ( ) 计算 当前 速度 和 坐标 ( ) 计算 当前 速度 和 坐标 ( ) 
线程 屏障 ( ) 线程 屏障 ( ) 线程 屏障 ( ) 
获取 相 邻 影响 原子 的 数据 ( ) 获取 相 邻 影响 原子 的 数据 ( ) 获取 相 邻 影响 原子 的 数据 ( ) 


) ) 


) 


图 9-8 多 线程 同步 屏障 示意 图 


有 大话 计算 机 一 一 计算 机 系统 底层 架构 原理 极限 剖析 


达 出 来 的 序列 ， 用 其 生成 对 应 的 蛋白 质 分 子 ， 来 研究 
其 潜在 的 药理 作用 。 但 是 这 个 成 本 过 于 高 昂 ， 如 果 能 
先 用 计算 机 模拟 出 这 个 分 子 可 能 的 构象 ， 以 及 分 子 表 
面 暴露 出 的 残 基 的 电化 学 环境 ， 那 么 就 有 可 能 筛选 出 
那些 看 上 去 更 加 有 药物 潜力 的 候选 者 ， 从 而 再 有 针对 
性 地 着 手 制备 这 些 分 子 并 进入 实验 验证 ， 这 样 就 可 以 
节省 很 大 成 本 。 再 比如 ， 对 于 血红 蛋白 ， 蛋 白 分 子 被 
合成 之 后 ， 还 需要 结合 中 啉 环 ， 科 学 家 们 想 看 一 下 这 
个 中 啉 环 到底 会 不 会 被 蛋白 质 分 子 的 电化 学 环境 自动 
吸引 进去 并 卡 入 既定 位 置 ， 还 是 需要 由 某 种 生化 酶 去 
主动 将 两 者 装配 起 来 。 如 果 模 拟 的 结果 发 现 无 论 如 何 
也 无 法 自动 被 卡 入 ， 势 又 过 高 ， 那 么 预示 着 可 能 存在 
一 种 “血红 蛋白 中 啉 化 酶 ”， 从 而 可 以 主动 去 寻找 该 
酶 ， 或 许 你 会 有 新 发 现 ， 比 如 补 氨 基 酸 、 补 中 啉 、 补 
铁 对 某 些 贫血 患者 可 能 无 用 ， 是 因为 其 基因 中 缺乏 该 
酶 的 序列 信息 ， 或 者 其 基因 表达 收 到 了 抑制 ， 从 而 为 
人 类 医学 做 出 贡献 。 当 然 ， 冬 瓜 哥 只 是 在 假设 。 


9.1.4 ”其 他 科学 计算 场景 


分 子 动力 学 其 实 是 最 容易 理解 的 计算 过 程 ， 上 
述 过程 也 是 一 种 简化 描述 ， 实 际 工程 上 会 复杂 一 些 。 
有 些 更 加 复杂 的 科学 计算 ， 比 如 冷冻 电镜 三 维 构象 重 
构 。 其 产生 的 背景 是 ， 分 子 生 物 界 的 科学 家 们 有 时 候 
不 相信 用 计算 机 模拟 计算 出 来 的 分 子 构 象 ， 只 相信 肉 
眼 所 见 的 实际 结构 。 于 是 人 们 想 了 一 种 办 法 ， 把 含有 
大 量 某 蛋 白质 分 子 的 浓缩 纯 溶液 用 液 毛 冷却 成 冰 块 ， 
然后 狂 裂 ， 用 高 分 辩 率 电子 显微镜 对 碎 块 的 横 截 面 拍 
照 ， 在 很 大 概率 上 便 会 拍 到 处 于 各 种 角度 呈现 在 横 截 
面 的 蛋白 质 大 分 子 ， 有 竖 着 的 、 横 着 的 、 身 着 的 、 斜 
着 的 等 。 然 后 将 这 幅 高 清 图 片 输入 到 计算 机 进行 处 
理 ， 先 将 这 些 轮廓 进行 采样 和 描述 ， 然 后 开始 用 这 些 
各 种 角度 的 样子 拼 出 一 幅 三 维 空间 构象 。 至 于 程序 是 
采用 什么 算法 将 二 维 轮廓 重 构成 三 维 构象 的 ， 其 计算 
过 程 已 经 超出 了 冬瓜 哥 的 理解 范围 。 冬 瓜 哥 的 脑子 比 
较 笨拙 ， 只 能 理解 r=ma， 虽 说 勤 能 补 拙 ， 但 是 冬瓜 
哥 已 经 是 冬瓜 权 了 ， 精 力 和 体能 不 足 。 有 兴趣 的 读者 
可 以 自行 研究 ， 并 且 欢 迎 分 享 。 

此 外 ， 工 程 力学 、 海 洋 /气象 、 地 质 勘探 、 宇 宙 演 
化 等 领域 ， 也 都 需要 多 线程 并 行 运算 。 可 谓 : 算 天 算 
地 算 人 。 


9.2 ”大 规模 系统 共享 内 存 之 向 往 


人 们 最 希望 的 是 有 更 多 的 核心 运行 在 同一 个 地 址 
空间 ， 可 以 直接 访问 变量 ， 比 如 a[5]=9， 在 同一 个 地 
址 空间 中 的 线程 可 以 直接 采用 “a[5]” 来 引用 这 个 变 
量 。 但 是 正如 前 文中 所 述 的 原因 ， 同 一 个 系统 中 无 法 
存在 太 多 的 核心 。 


增加 核心 数量 并 不 是 那么 容易 的 事情 ， 除 非 不 使 
用 缓存 ， 所 有 核心 把 所 有 的 更 新 都 写 到 主 存 里 。 但 是 
这 样 做 性 能 将 会 不 可 接受 。 有 人 问 ， 把 缓存 也 集中 共 
享 不 就 没 这 么 多 事 了 么 ? 的 确 。 但 是 如 果 把 缓存 单独 
放 到 某 个 地 方 ， 多 个 CPU 芯片 通过 某 种 总 线 集中 访问 
该 缓存 ， 那 么 其 总 线 速率 一 定 不 够 高 ， 因 为 其 走 到 了 
芯片 外 面 ， 导 线 长 度 变 长 ， 信 号 质量 就 会 变 差 。 这 个 
思路 就 不 现实 了 。 

所 以 ， 要 使 用 分 布 式 缓存 ， 又 得 要 求 核心 数量 
越 来 越 多 的 话 ， 就 得 保证 所 有 核心 之 间 的 网 络 足够 高 
速 才 行 。 而 核心 数量 越 来 越 多 ， 网 络 的 直径 就 会 越 来 
越 大 ， 即 便 是 采用 CC 协议 比如 MESI 过 滤 ， 效 果 也 是 
有 限 的， 广播 的 时 延 随 着 网 络 规模 的 增 大 变 得 越 来 越 
高 。 所 以 ， 核 心 数量 达到 一 定 程度 之 后 ， 缓 存 一 致 性 
问题 就 变 成 了 整个 系统 扩展 性 的 瓶颈 点 所 在 。 对 于 成 
百 上 千 个 核心 的 网 络 来 说 ， 用 硬件 保证 透明 的 缓存 一 
致 性 得 不 偿 失 。 

此 时 ， 必 须 抛 弃 由 硬件 保证 的 缓存 一 致 性 ， 改 
为 软件 自行 解决 。NoC (Network on Chip) 方案 就 是 
在 一 个 芯片 中 将 几 十 、 上 百 个 核心 通过 高 速 网 络 连接 
起 来 但 是 却 不 一 定 提供 硬件 缓存 一 致 性 ， 其 网 络 直径 
很 大 。 这 种 架构 天 然 适合 每 个 线程 各 干 各 的 工作 ， 不 
访问 共享 数据 。 如 果 不 是 各 干 各 的 ， 必 须 传递 更 新 后 
的 变量 的 话 ， 需 要 由 软件 自行 向 位 于 每 个 核心 前 端的 
NoC 网 络 控制 器 发 送 消息 + 目标 节点 地 址 并 传递 到 对 
方 ， 对 方 通过 底层 驱动 + 协议 栈 接收 该 变量 并 传递 给 
其 本 地 程序 ， 这 已 经 是 赤裸 裸 的 程序 控制 网 络 通信 
了 。 其 实 NUMA 已 经 是 这 样 了 ， 只 不 过 其 网 络 通信 程 
序 跑 在 硬件 微 码 或 者 硬 状态 机 中 ， 且 该 状态 机 可 直接 
接收 访 存 请 求 并 将 其 通过 网 络 发 送 从 而 对 软件 透明 ， 
从 而 可 以 把 上 层 的 访 存 请 求 承载 到 网 络 消息 中 。 

另外 ，NoC 架 构 的 CPU 很 少 会 被 设计 为 共享 内 存 
架构 ， 因 为 此 时 主 存 也 是 通过 主 存 控制 器 接 入 NoC。 
由 于 NoC 时 延 过 大 ， 每 一 笔 访 存 请 求 又 是 同步 的 ， 将 
代码 直接 放 到 主 存 ， 性 能 将 会 非常 差 ， 所 以 NoC 上 的 
RAM 主 要 用 于 所 有 核心 之 间 的 最 后 一 层 共享 缓存 了 ， 
只 不 过 是 可 寻 址 的 缓存 ， 由 软件 而 不 是 硬件 来 管理 。 
NoC 架 构 下 每 个 核心 内 部 一 般 会 有 几 百 KB 的 SRAM 可 
寻 址 空间 ， 代 码 则 运行 在 这 里 。 外 部 主 存 可 以 使 用 虚 
拟 驱动 映射 成 某 个 带 队 列 的 设备 ， 异 步 读 写 。 不 过 ， 
的 确 也 有 支持 直接 将 RAM 空 间 映 射 到 所 有 核心 的 统一 
全 局 地 址 空间 ， 但 是 其 访问 性 能 会 很 差 ， 所 以 鲜 有 这 
种 产品 。 或 者 ， 即 便 是 支持 ， 实 际 中 也 很 少 会 开启 这 
种 透明 的 共享 内 存 模式 。 

Full Mesh NoC 网 格 矩 阵 带 来 的 一 个 问题 是 ， 如 
果 CPU 器 件 需要 直接 寻 址 内 存 的 话 ， 那 么 必须 在 CPU 
侧 增加 一 个 地 址 译 码 + 封包 器 ， 也 就 是 要 将 CPU 发 出 
的 地 址 信号 打包 ， 并 判断 该 地 址 对 应 的 数据 到 底 存 
放 在 Mesh 中 哪个 节点 后 面 ， 最 后 打上 源 和 目的 地 址 
(目的 地 址 是 连接 在 这 张 Mesh 网 格 某 交 叉 点 处 的 DDR 


RAM 控 制 器 的 Mesh 节 点 地 址 ) ， 然 后 送 入 Mesh 网 格 
路 由 。 这 个 包 最 终 会 被 DDR RAM 控 制 器 收 到 ， 但 是 
DDR 控 制 器 也 必须 增加 逻辑 才 行 ， 普 通 DDR 控 制 器 是 
直接 解码 地 址 信号 的 。 对 于 Mesh 中 的 DDR 控 制 器 ， 
还 需要 加 上 一 个 Mesh 包 解析 模块 ， 先 从 包头 中 判断 
是 谁 发 出 的 访问 请 求 ， 然 后 从 包 的 Payload 中 提取 出 
内 容 ， 也 就 是 一 条 存储 器 地 址 访问 请 求 消息 ， 然 后 再 
执行 和 普通 DDR 控 制 器 一 样 的 存储 器 地 址 译 码 工 作 ， 
根据 地 址 判断 数据 到 底 存在 哪个 通道 的 哪个 槽 位 的 哪 
个 内 存 颗粒 上 ， 从 而 将 该 地 址 对 应 的 内 容 读 出 并 组 
存 ， 然 后 将 其 封包 ， 打 入 Mesh 地 址 标签 ， 送 入 Mesh 
路 由 。 最 终 CPU 侧 的 地 址 译 码 封包 器 收 到 这 个 包 ， 解 
包 ， 提 取 数 据 ， 然 后 送 入 CPU 的 数据 总 线 ， 这 才 完 成 
一 次 访问 内 存 请 求 。 这 种 方式 虽然 保持 了 全 局 内 存 的 
透明 直接 访问 ， 简 化 了 软件 操作 ， 但 是 却 给 硬件 带 来 
了 成 本 ， 也 就 是 Mesh 中 的 每 个 节点 上 需要 增加 对 应 的 
译 码 器 、 封 包 解 包 器 。 

如 果 想 降低 一 点 档次 ， 不 需要 硬件 搞定 完全 透 
明 的 内 存 共 享 ， 那 么 就 需要 软件 上 做 出 改变 ， 所 有 供 
CPU 运行 的 代码 所 存放 的 地 方 必须 不 能 在 Mesh 网 格 其 
他 节点 处 ， 只 能 放 在 CPU 可 直接 寻 址 的 存储 器 中 。 但 
是 把 代码 内 存 集成 到 CPU 核心 器 件 里 ， 容 量 就 不 能 太 
大 ， 所 以 依然 还 得 需要 有 较 大 空间 的 RAM 主 存 ， 而 这 
些 RAM 只 能 处 于 Mesh 的 其 他 节点 处 。 如 果 程 序 要 用 
到 这 些 远 端 大 容量 RAM 的 话 ，CPU 访 问 这 些 缓存 内 容 
时 就 不 能 直接 放 地 址 信号 ， 而 必须 要 靠 专门 负责 Mesh 
网 络 收发 包 的 程序 来 将 数据 封包 和 解 包 ， 这 个 程序 本 
质 上 其 实 就 是 Mesh 网 络 的 硬件 驱动 程序 了 。 也 就 是 
说 ， 应 用 程序 代码 里 不 能 肆 无 忌 翌 地 认为 “我 所 用 的 
内 存 是 一 个 可 以 自由 壮 翔 的 平坦 空间 ”了 ， 而 必须 有 
所 感知 ， 当 需要 将 某 数据 存 到 远 端 RAM 的 时 候 ， 代 码 
需要 显 式 地 调用 某 特定 函数 从 而 将 该 数据 传递 给 Mesh 
网 络 控制 器 驱动 程序 从 而 发 出 这 个 IO 请 求 ， 也 就 是 
将 内 存 访问 变 成 了 网 络 IO 请 求 了 。CPU 发 出 一 个 数据 
包 ， 送 给 位 于 Mesh 其 他 节点 上 的 DDR RAM 控 制 器 ， 
RAM 控 制 器 硬件 也 必须 能 够 解析 这 个 包 ， 过 程 与 上 
文 相同 。 数 据 包 被 CPU 收 到 之 后 ，Mesh 驱 动 负 责 收 包 
解 包 ， 并 最 终 将 数据 复制 到 应 用 程序 缓存 中 去 。 通 过 
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Mesh 网 络 收发 数据 与 通过 以 太 网 卡 驱动 控制 以 太 网 卡 在 
以 太 网 络 上 通信 的 本 质 是 一 样 的 。 这 种 方案 属于 松 耦 合 
方案 ， 代 码 内 存 不 能 共享 ， 每 个 CPU 必须 各 有 各 的 代码 
内 存 ， 而 数据 缓存 可 以 共享 但 是 不 能 直接 寻 址 ， 必 须 使 
用 特殊 的 驱动 程序 将 访 存 请 求 封 包 发 送 到 远 端的 内 存 控 
制 器 。 这 种 方案 时 延 高 ， 性 能 差 ， 但 是 扩展 性 却 没有 问 
题 ， 几 十 、 上 百 个 器 件 互联 都 不 成 问题 。 


9.2.1 ОМА/МОМА/МРР 


共享 内 存 系 统 ， 又 可 以 分 为 UMA 和 NUMA 两 种 
架构 。 其 中 NUMA 架 构 我 们 已 经 在 第 6 章 中 介绍 过 
Т. UMA (Unified Memory Access) 架构 是 所 有 CPU 
对 等 的 访问 物理 上 集中 放置 的 内 存 ， 比 如 ， 将 内 存 控 
制 器 放置 在 北桥 内 部 ， 则 每 个 CPU 到 内 存 的 路 径 长 度 
是 等 价 的。 如 图 9-9 左 侧 所 示 ， 图 中 没有 画 出 桥 片 ， 
但 是 却 明确 表达 了 UMA 的 含义 。 

中 间 的 图 示 表 示 的 则 是 NUMA (None Uniform 
Memory Access) 架构 。 不 管 是 UMA 还 是 NUMA， 它 
们 有 个 共同 点 就 是 所 有 CPU 均 可 以 透明 直接 寻 址 所 有 
内 存 。 所 谓 直接 寻 址 就 是 指 CPU 可 以 直接 在 其 地 址 信 
号 线 上 放置 对 应 内 存 地 址 信号 ，1 个 或 者 多 个 时 钟 周 
期 之 后 ， 便 会 在 数据 信号 线 上 收 到 该 地 址 对 应 的 数据 
内 容 。 所 以 UMA 和 NUMA 又 可 以 被 归 类 为 一 种 “ 紧 
耦合 ”的 系统 ， 也 就 是 CPU 和 内 存 之 间 是 直接 寻 址 访 
问 的 ， 耦 合 很 紧 ， 虽 然 NUMA 架 构 下 内 存 和 CPU 之 
间 的 物理 距离 上 可 能 隔 得 较 远 ， 但 是 逻辑 上 依然 是 紧 
耦合 。 

图 9-9 中 右 侧 所 示 的 场景 ， 是 另 一 种 松 耦 合 的 场 
景 ， 其 中 的 C 和 M 表 示 CPU 和 内 存 ， 那 么 它 和 中 间 的 
图 有 什么 本 质 区 别 ? 形态 上 确实 没有 本 质 区 别 ， 只 不 
过 ， 右 侧 图 示 里 CPU 之 间 的 互联 网 络 是 非 访 存 式 IO 
网 络 ， 而 不 是 访 存 网 络 ， 比 如 以 太 网 ， 或 者 图 中 所 示 
的 “Internet”， 即 范围 更 大 的 互联 网 。 这 种 架构 其 实 
就 是 多 台独 立 的 计算 机 之 间 通 过 某 种 外 置 网 络 组 成 的 
一 个 集群 ， 是 一 种 松 耦 合 方式 。 距 离 导 致 质变 ，CPU 
在 这 种 情况 下 已 经 不 适合 直接 寻 址 远 端 节点 内 存 了 ， 
因为 时 延 实在 是 太 高 ，CPU 的 时 钟 周期 会 被 严重 浪费 
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掉 。 但 是 这 并 不 意味 着 不 可 以 通过 其 他 方式 来 直接 读 
写 远 端的 内 存 。 只 要 将 这 个 过 程 变 成 由 程序 控制 的 、 
异步 的 就 可 以 ， 比 如 将 访 存 请 求 封装 到 网 络 包 中 传递 
给 对 方 ， 由 对 方 的 CPU 负责 访 存 ， 再 将 内 容 封装 到 网 
络 包 中 传递 回来 ， 一 样 可 以 达到 访 存 的 目的 。RDMA 
便 是 这 样 一 种 技术 ， 具 体 不 多 叙述 了 。 

先贤 将 最 后 这 种 松 耦 合 形态 称 为 MPP (Massive 
Parallel Processing， 大 规模 并 行 处 理 ) 。 这 里 要 理解 一 
点 ， 比 如 互联 网 上 的 一 堆 没 有 任何 联系 的 机 器 ， 其 实 
也 符合 这 种 架构 。 但 是 前 提 是 MPP 集 群 中 的 机 器 必须 
统一 协作 。 一 堆 互 不 联系 的 机 器 ， 并 不 能 称 为 一 个 独 
立 的 MPP 系 统 。 整 个 互联 网 上 的 计算 机 天 然 组 成 了 一 
个 集群 ， 但 是 并 没有 相互 配合 协作 。 曾 经 有 个 项 目 叫 
ЧЕЗЕТКНоше 〈 坐 在 家 里 寻找 外 星人 ) 就 是 利用 所 有 
互联 网 上 的 计算 机 各 自 下 载 一 部 分 接收 到 的 宇宙 射电 信 
号 数据 ， 然 后 用 同样 的 方式 去 分 析 计 算 并 返回 结果 ， 其 
将 运算 程序 作为 一 个 屏保 程序 ， 在 用 户 离开 电脑 或 者 电 
脑 空闲 的 时 候 ， 便 后 台 启 动 计算 ， 屏 保 结束 则 自动 停 
止 。 当 然 ， 目 前 几乎 已 经 没有 人 使 用 屏保 程序 了 。 

科学 计算 场景 所 需 的 超大 规模 系统 ， 只 能 靠 MPP 
架构 来 满足 。 对 于 这 种 无 法 直接 共享 内 存 的 MPP 集 
群 ， 多 线程 是 如 何 实现 数据 共享 的 呢 ? 我 们 将 在 下 面 
的 9.3 节 给 出 答案 。 


9.2.2 OpenMP 并 行 编程 


目前 基于 x86 平 台 的 共享 内 存 紧 耦 合 系统 最 大 可 
以 扩展 到 几 十 路 (比如 64 路 ) CPU， 而 基于 大 型 机 
(比如 IBM 713) 的 共享 内 存 紧 耦合 系统 可 扩展 到 数 
百 路 〈768 路 ) CPU。 面 对 如 此 强悍 的 计算 资源 ， 一 
个 程序 该 如 何 更 好 地 利用 呢 ? 那 必须 将 程序 设计 为 多 
线程 架构 。 但 是 很 不 幸 的 是 ， 目 前 多 数 程序 或 者 说 程 
序 员 ， 更 习惯 于 单线 程 架 构 ， 因 为 多 线程 牵扯 到 复杂 
的 同步 问题 ， 比 如 对 共享 资源 的 加 锁 、 屏 障 等 考虑 ， 
会 增加 开发 难度 ， 搞 不 好 甚至 降低 程序 性 能 。 

但 是 对 于 一 些 场景 下 ， 程 序 可 以 很 容易 转化 为 多 
线程 处 理 方式 。 比 如 下 面 的 伪 代码 : 

for (int i = 0; і < —{7Л; i+) { ali] = 
bfi] * 0.229 +b[i].g * 0.587 +b[i].b + 0.114}; ]o 

这 段 代码 将 数组 b[ ] 中 从 第 0 项 开始 到 第 一 千 万 
项 ， 每 一 项 分 别 乘 以 三 个 系数 然后 相 加 ， 将 结果 写 
入 数组 a[ ] 中 相同 位 置 的 项 。 很 显然 ， 假 设 当前 系 
统 有 100 个 CPU 核心 ， 那 么 可 以 运行 100 个 线程 ， 让 
第 1 个 线程 处 理 b[0]，b[1]，b[2]，*…，b[1000000] 项 
的 乘法 和 加 法 运算 ， 让 第 2 个 线程 处 理 b[1000001]、 
b[1000002]，…，b[2000000] 项 的 计算 ， 以 此 类 推 ， 
每 个 线程 分 别 负责 100 万 个 项 目的 运算 。 每 个 线程 各 
自 读 出 数组 b[ ] 的 对 应 项 目 ， 互 不 干涉 ， 之 间 也 没有 
任何 共享 资源 ， 不 需要 加 锁 和 缓存 一 致 性 同步 (因为 
没有 其 他 核心 读 入 共享 资源 ， 所 以 对 应 数据 的 缓存 行 


(Cache line) 在 缓存 中 会 被 标记 为 E 状 态 ， 访 问 时 不 
会 发 出 同步 广播 ) ， 性 能 基本 上 会 随 着 核心 数量 的 增 
长 而 线性 提升 。 

程序 员 可 以 手动 创建 多 个 线程 ， 手 动 为 每 个 线程 
编写 对 应 的 代码 。 比 如 : if REREH, ЯА 
入 b[0] 到 b[ 一 百 万 ] 然 后 计算 ， И REREH, WAR 
就 读 入 b[ 一 百 万 零 一 ] 到 b[ 二 百 万 ] 然 后 计算 。 或 者 可 以 
这 样 设计 以 便 省 掉 代码 中 大 量 的 jf 判断 ， 让 线程 0 运算 
第 0，100，200，300，…，1000000 项 的 计算 ， 线 程 1 
运行 第 1，101，201，301，…，1000001 项 的 计算 ， 以 
此 类 推 。 然 后 每 个 线程 运行 这 段 相同 的 伪 代 码 : int y= 
当前 线程 ID ; for (inti= 0; i< 一 千 万 ; i) { 读 出 b[y] 计 
Я; y=y+ 线 程 总 数 }。 这 样 ， 代 码 就 简洁 多 了 ， 每 个 线 
程 判 断 自己 的 线程 ID， 然 后 读 取 各 自 数据 运算 。 

为 了 节省 程序 员 创建 线程 、 分 派 数 据 、 关 闭 线程 
等 步骤 ， 人 们 开发 了 一 些 自动 化 多 线程 编译 器 模块 ， 
比如 OpenMP。 程 序 员 只 依然 按照 单线 程 模式 来 编写 
程序 ， 但 是 只 需要 在 可 被 多 线程 化 的 代码 之 前 加 入 对 
应 的 编译 制导 语句 ，OpenMP 编 译 器 就 会 自动 将 这 段 
程序 转 为 多 线程 执行 ， 执 行 完毕 后 再 返回 单线 程 模 
式 。 比 如 对 于 上 面 的 代码 : 


#pragma omp parallel for 

//OpenMP 编 译 器 提供 的 编译 制导 语句 

for (int i = 0; i < —f2; i++) { ali] = 
b[i] * 0.229 +b[i].g * 0.587 +b[i].b * 0.114); ) 

编译 该 程序 时 ， 运 行 gcc 编 译 器 时 给 出 对 应 参 
数 ， 即 可 引入 OpenMP 编 译 模 块 对 代码 进行 分 析 编 译 
了 : gcc -fopenmp app.c -0 app_omp.exe。 

OpenMP 编 译 器 会 自动 分 析 这 个 for 循 环 ， 并 确定 创 
建 多 少 个 线程 ， 以 及 每 个 线程 分 派 哪些 数据 运算 。 这 
整个 过 程 在 后 台 自 动 进行 。 程 序 运 行 的 时 候 ， 仅 在 执 
行 到 该 for 循 环 时 才 会 动态 创建 多 线程 ， 程 序 执行 结束 
后 会 删除 这 些 线程 。 当 然 ， 这 只 是 一 个 OpenMP 的 最 简 
单 的 应 用 样 例 ， 其 更 多 功能 和 语法 请 大 家 自行 了 解 。 

可 以 翻 回去 看 一 下 8.2.4 节 末尾 ， 如 果 利 用 CPU 来 
泻 染 图 形 的 话 ， 你 认为 OpenMP 是 否 会 有 用 武之 地 ? 
要 知道 对 于 一 个 4 k 分 辩 率 的 屏幕 来 说 ， 其 像素 数量 接 
近 900 万 个 。 

OpenMP 只 支持 共享 内 存 的 紧 耦 合 系统 ， 并 不 支 
持 通过 外 部 网 络 相互 连接 的 MPP 系 统 ， 要 在 MPP 系 统 
上 运行 多 线程 程序 ， 需 要 将 程序 的 架构 改 为 多 线程 通 
过 网 络 进行 数据 交换 的 方式 。 


9.3 基于 消息 传递 的 非 共 享 内 存 
系统 


要 想 实 现 万 级 别 的 核心 数量 ， 单 一 系统 是 不 现 


实 的 ， 必 须 是 MPP 架 构 的 系统 ， 也 就 是 直接 用 某 种 高 
速 外 部 网 络 将 大 量 独立 的 计算 机 互联 起 来 ， 然 后 将 它 
们 安置 到 一 个 大 机 房 中 ， 实 现 一 个 并 行 计算 集群 。 那 
么 ， 既 然 使 用 了 外 部 网 络 ， 多 个 不 同 机 器 上 的 线程 之 
间 就 不 能 够 共享 内 存 来 直接 引用 或 处 理 某 个 变量 或 数 
据 结构 。 那 么 ， 我 们 上 文中 的 场景 ， 当 某 个 线程 运算 
完毕 将 结果 填 入 自己 对 应 的 数据 结构 中 之 后 ， 其 他 线 
程 该 如 何 获取 这 个 值 呢 ? 


9.3.1 采用 消息 传递 方式 同步 数据 


显然 ， 必 须 通过 外 部 网 络 来 获取 ， 或 者 说 本 地 
线程 需要 主动 将 算 好 的 数据 封装 到 网 络 包 中 发 送 给 对 
方 ， 而 对 方 也 必须 同时 主动 要 求 将 这 个 数据 接收 进 
来 ， 双 方 协调 一 致 ， 一 发 一 收 。 在 单 系统 内 的 多 线程 
同步 等 待 问题 ， 在 多 独立 系统 内 一 样 会 存在 。 也 就 
是 ， 对 方 线程 如 何 知道 本 地 线程 已 经 运算 完毕 ， 从 而 
去 拿 数 据 ? 为 了 实现 这 一 点 ， 可 以 在 线程 中 相同 的 位 
置 加 上 一 个 专门 用 于 发 送 、 接 收 数据 的 函数 。 该 函数 
利用 TCP/IP 等 外 部 网 络 通信 协议 与 集群 内 其 他 节点 交 
互 ， 接 收 方 收 到 数据 之 后 必须 返回 给 发 送 方 一 个 应 答 
消息 ， 发 送 方 只 有 收 到 该 应 答 消 息 才 能 确保 对 方 已 经 
拿 到 数据 (注意 ， 这 里 所 说 的 应 答 消息 并 非 网 络 协 议 
栈 的 传输 层 ACK 消 息 ， 而 是 指 端 到 端的 应 答 消息 
也 就 是 程序 主动 发 出 的 消息 ， 因 为 传输 层 收 到 数据 并 
不 意味 着 应 用 层 也 收 到 ， 传 输 层 只 会 将 数据 放 到 一 个 
临时 缓冲 区 中 ， 并 没有 将 数据 转交 给 应 用 层 ) ， 然 后 
才能 返回 。 同 理 接收 方 在 没有 收 到 数据 之 前 ， 不 会 返 
回 ， 会 持续 等 待 。 这 样 ， 发 送 /接收 函数 没有 成 功 返回 


线程 #0 : 
While ( 未 达到 停止 计算 条 件 ) { 
计算 当前 速度 和 坐标 (原子 0 , 表 0) 
从 相 邻 原子 线程 接收 数据 (线程 1 ,线程 2) 
将 数据 发 送 到 相 邻 原子 线程 (线程 1 , 线程 2) 
) } 
图 9-10 


线程 #1 : 


线程 #0 : 
While ( 未 达到 停止 计算 条 件 ) { 
计算 当前 速度 和 坐标 (原子 0， 表 0) 


线程 #1 : 


While ( 未 达到 停止 计算 条 件 ) { 
计算 当前 速度 和 坐标 (原子 1 , 表 1) 
从 相 邻 原子 线程 接收 数据 (线程 0 ， 线程 2) 
将 数据 发 送 到 相 邻 原子 线程 ( 线程 0， 线 程 2) 


While ( 未 达到 停止 计算 条 件 ) { 
计算 当前 速度 和 坐标 (原子 1 , 表 1) 


第 9 章 БЕЗ — УИ ВЕНЕ 


之 前 ， 线 程 不 能 执行 后 续 的 代码 ， 这 样 既 可 以 做 到 数 
据 的 同步 ， 又 可 以 做 到 线程 间 的 步调 同步 ， 如 图 9-10 
所 示 。 

仔细 思考 一 下 上 述 逻 辑 ， 有 点 不 对 劲 。 每 个 线程 
在 运算 完毕 之 后 都 会 进入 数据 接收 函数 ， 那 就 意味 着 
所 有 人 都 在 等 待 其 他 人 给 自己 发 送 数据 ， 而 由 于 数据 
发 送 函 数 排 在 了 接收 函数 之 后 执行 ， 此 时 并 没有 任何 
线程 发 数据 ， 程 序 就 进入 了 死 锁 状态 ， 所 以 上 述 逻 辑 
是 有 问题 的 。 我 们 可 以 让 所 有 线程 先 发 送 数据 ， 然 后 
再 接收 数据 ， 但 是 这 样 依然 有 问题 ， 因 为 发 送 函数 需 
要 等 接收 函数 的 应 答 确认 信息 之 后 才能 返回 ， 而 如 果 
所 有 线程 都 在 发 送 数据 ， 无 人 执行 接收 函数 ， 程 序 依 
然 会 死 锁 。 为 此 ， 可 以 将 数据 发 送 函 数 做 成 异步 返回 
模式 ， 也 就 是 该 函数 底层 在 本 地 设置 一 个 缓冲 区 ， 要 
发 送 的 数据 只 要 发 送 到 本 地 的 该 缓冲 区 就 可 以 返回 ， 
然后 在 后 台 启 动 另 外 的 线程 尝试 发 送 这 些 数据 。 这 样 
所 有 线程 都 会 进入 接收 函数 执行 ， 之 前 被 缓冲 的 待 发 
送 数据 会 在 后 台 陆 续 被 发 出 ， 所 有 线程 接收 到 各 自 的 
数据 ， 继 续 执行 后 续 逻 辑 。 

或 者 采用 另外 一 种 程序 逻辑 ， 仔 细 安 排 收 发 过 
程 ， 让 收发 的 顺序 配合 起 来 ， 避 免 死 锁 ， 如 图 9-11 
所 示 。 

思考 一 下 ， 如 果 这 些 线 程 都 运行 在 一 个 共享 内 
存 的 单一 系统 上 的 话 ， 那 么 根本 不 需要 调用 这 些 网 络 
数据 收发 函数 ， 每 个 线程 直接 去 引用 其 他 原子 对 应 的 
表格 里 上 一 步 算 好 的 数值 就 可 以 了 。 然 而 ， 我 们 为 了 
追求 大 量 的 线程 而 不 得 不 使 用 MPP 系 统 。 那 么 这 就 会 
产生 一 个 矛盾 ， 如 果 MPP 集 群 所 使 用 的 网 络 速度 不 
够 高 ， 那 么 数据 收发 耗费 的 时 间 就 会 很 长 ， 这 段 时间 


线程 #2 : 

While ( 未 达到 停止 计算 条 件 ) { 
计算 当前 速度 和 坐标 (原子 2， 表 2) 
从 相 邻 原子 线程 接收 数据 (线程 0 线程]) 
将 数据 发 送 到 相 邻 原子 线程 (线程 0， 线 程 1) 


多 个 线程 在 一 轮 计 算 完毕 后 相互 收发 数据 


线程 #2 : 
While ( 未 达到 停止 计算 条 件 ) { 
计算 当前 速度 和 坐标 (原子 2 #2) 


从 相 邻 原子 线程 接收 数据 (线程 1) 和 ”将 数据 发 送 到 相 邻 原子 线程 ( 线程 0 ”__ 从 相 邻 原子 线 程 接收 数据 (线程 0) 


将 数据 发 送 到 相 邻 原子 线程 (线程 2) 


将 数据 发 送 到 相 邻 原子 线程 线程) > 欠 相 邻 原子 线程 接收 数据 (线程 0) 


将 数据 发 送 到 相 邻 原子 线程 ( 线程 2) 了 ” ”说 从 相 邻 原子 线程 接收 数据 (线程 1) 


将 数据 发 送 到 相 邻 原子 线程 (线程 0) 


从 相 邻 原子 线程 接收 数据 线程 2) — 
) ) 


从 相 邻 原子 线程 接收 数据 (线程 2) < 将 数据 发 送 到 相 邻 原子 线程 (线程 1) 


} 


图 9-11 仔细 安排 每 个 线程 的 收发 顺序 避免 死 锁 


加 本 天 十 EW 由 大 话 计算 机 一 一 计算 机 系统 底层 架构 原理 极限 剖析 


内 ，CPU 核 心 的 算 力 无 法 用 满 ， 系 统 多 数 时 候 都 在 等 
待 数据 的 发 送 和 到 达 。 相 比 之 下 ， 虽 然 共享 内 存 的 单 
一 系统 的 核心 数量 比较 少 ， 但 是 每 个 线程 计算 完毕 之 
后 的 数据 ， 其 他 线程 通过 访 存 就 可 以 获取 ， 访 问 本 地 
内 存 的 速率 比 访问 外 部 网 络 要 快 得 多 。 那 么 ， 综 合 来 
讲 ， 总 体 核心 数量 很 多 的 MPP 系 统 的 整体 性 能 就 一 
定 比 紧 耦合 的 核心 数量 相对 较 少 的 单 系统 要 高 么 ? 真 
的 不 见得 。 所 以 ， 对 于 MPP 系 统 来 讲 ， 第 一 个 性 能 优 
化 的 要 务 ， 就 是 要 降低 网 络 通信 量 ， 让 更 多 的 时 间 被 
用 于 计算 而 不 是 用 于 传送 数据 。 那 也 就 意味 着 ， 要 让 
CPU 核心 花 在 计算 上 的 比例 大 一 些 ， 花 在 数据 传输 上 
的 比例 小 一 些 ， 或 者 让 这 两 者 充分 的 并 行 。 

而 反观 我 们 上 文中 的 方式 ， 给 每 个 原子 设 定 一 
个 线程 ， 计 算 单个 原子 的 速度 和 坐标 ， 其 运算 量 并 不 
大 ， 计 算 很 快 就 会 完成 ， 我 们 假设 这 个 过 程 耗费 1 ms, 
算 完 之 后 的 数据 收发 过 程 ， 我 们 假设 耗费 9 ms。 这 
样 ， 计 算 只 占有 10% 的 比例 ， 而 90% 的 时 间 被 网 络 开 
销 所 占用 ， 这 个 系统 的 利用 率 太 低 。 相 比 之 下 ， 假 
设 菜单 核心 系统 的 计算 比例 为 00%9， 取 数据 开销 10% 
(因为 访 存 速度 远 高 于 网 络 ) 的话 ， 那 么 ， 对 于 该 多 
核心 系统 ， 仅 当 其 核心 数量 超过 9 个 的 时 候 ， 才 能 相 
对 于 该 单 核心 系统 而 言 产生 加 速效 果 。 当 然 ， 也 得 考 
虑 核心 数量 太 多 之 后 网 络 规模 扩大 ， 网 络 开销 会 继续 
提升 ， 最 终 它 们 之 间 会 呈现 出 一 定 的 数学 关系 ， 这 里 
不 再 多 描述 。 

那么 如 何 提升 分 子 动力 学 计算 场景 下 的 计算 比 
例 ? 如 图 9-12 所 示 ， 我 们 可 以 不 必 给 每 个 原子 设置 一 
个 线程 ， 而 是 将 原子 分 组 ， 给 每 一 组 原子 (比如 100 
个 ) 设置 一 个 线程 。 这 样 ， 每 一 组 原子 利用 单 节点 串 
行 计 算 ， 通 过 本 地 访 存 同步 数据 ;每 一 组 原子 对 应 的 
线程 被 安置 在 MPP 系 统 的 一 个 节点 上 运行 ， 组 和 组 
之 间 会 跨 网 络 共享 数据 。 每 一 组 原子 与 另 一 组 原子 之 
间 结 合 点 的 那个 或 者 几 个 原子 ， 处 于 组 与 组 的 边界 
上 ， 每 轮 计算 完毕 之 后 ， 相 邻 组 之 间 需 要 相互 通告 这 
些 边界 原子 的 最 新 位 置 。 如 果 原 本 处 于 边界 上 的 原子 
发 生 了 较 大 位 移 ， 运 动 到 了 其 他 相 邻 组 的 内 部 ， 同 时 


其 他 原子 可 能 运动 到 了 边界 上 ， 此 时 为 了 避免 跨 网 络 
流量 ， 需 要 将 进入 对 方 组 范围 的 原子 对 应 的 数据 结构 
迁移 到 对 方 节点 中 ， 后 续 在 对 方 组 进行 本 地 运算 和 
访 存 。 

再 想 一 下 ， 假 设 有 十 万 个 原子 的 系统 需要 模拟 ， 
而 你 也 创建 了 10 万 个 线程 ， 即 便 是 原子 分 组 之 后 ， 
比如 每 组 100 个 原子 ， 也 需要 写 一 千 个 线程 ， 这 就 是 
一 千 份 代码 。 虽 然 每 个 线程 的 逻辑 大 致 是 类 似 的 
但 是 每 个 函数 的 参数 是 不 同 的 ， 比 如 目标 节点 的 IP 地 
址 ， 成 千 上 万 个 IP 地 址 的 对 应 和 填写 已 经 是 梦 麻 了 ， 
这 非常 容易 出 错 。 而 且 ， 数 据 收发 函数 内 部 ， 需 要 
调用 TCP/IP 协 议 栈 的 接口 ， 如 果 底 层 不 使 用 以 太 网 
+TCP/IP， 而 使 用 了 其 他 更 高 速 、 低 时 延 的 网 络 比如 
Infiniband， 则 还 需要 调用 IB 网 络 的 API。 另 外 ， 在 本 
地 共享 内 存 的 单个 系统 内 部 的 多 个 线程 之 间 没 有 必要 
通过 外 部 网 络 收发 数据 ， 而 需要 采用 共享 内 存 方式 ， 
那 就 不 需要 调用 数据 收发 函数 了 ， 但 是 这 样 会 导致 代 
码 的 组 织 形式 各 异 、 可 读 性 和 可 维护 性 变 差 。 最 好 能 
在 数据 收发 函数 内 部 根据 所 处 的 环境 判断 到 底 是 采用 
共享 内 存 还 是 外 部 网 络 来 收发 数据 ， 而 函数 的 参数 能 
够 保持 不 变 。 

还 有 ， 能 否 让 所 有 线程 都 运行 同一 份 代码 ， 而 
在 代码 内 部 根据 当前 线程 的 标识 来 选择 处 理 不 同 的 数 
据 ? 这 就 像 在 第 6 章 中 我 们 介绍 过 的 多 CPU 核心 场景 
下 ， 程 序 可 以 通过 CPUID 指 令 判断 当前 核心 的 标识 ， 
从 而 选择 运行 不 同 的 分 支 一 样 ， 所 有 核心 可 以 执行 同 
一 份 代码 ， 但 是 走 入 不 同 的 分 支 。 这 样 对 于 编程 来 讲 
就 容易 多 了 。 

综合 来 讲 ， 对 于 大 规模 并 行 计算 和 科学 计算 领域 
的 上 层 程序 员 而 言 ， 他 们 的 精力 主要 在 钻研 各 种 算法 
上 ， 比 如 从 最 简单 的 F=ma 到 更 复杂 的 计算 公式 ， 而 
他 们 并 不 希望 花费 过 多 精力 去 处 理 底层 数据 同步 的 事 
情 。 他 们 的 诉求 可 以 总 结 为 以 下 几 点 。 

(1) 不 想 关 心 哪个 线程 跑 在 哪个 MPP 节 点 上 ， 
也 不 想 知道 对 方 的 了 地 址 是 多 少 ， 希 望 有 人 帮 我 搞定 
这 些 底层 对 应 关系 和 数据 收发 流程 ， 我 只 需要 看 到 线 
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图 9-12 ”每 个 线程 计算 一 组 原子 的 坐标 位 置 


程 ID 号 就 可 以 了 。 

(2) 我 更 不 想 关 心 程序 运行 的 MPP 集 群 的 物理 
结构 、 拓 扑 ， 使 用 何 种 网 络 ， 希 望 有 人 帮 我 搞定 对 应 
的 网 络 数据 收发 过 程控 制 ， 最 好 是 能 够 适 配 各 种 不 同 
类 型 的 网 络 。 

(3) 原来 我 很 方便 地 直接 引用 某 个 数据 结构 中 
的 项 目 ， 比 如 对 数组 第 3 项 赋值 语句 a[2]=4， 现 在 虽然 
做 不 到 透明 ， 但 是 我 可 以 忍受 调用 一 个 函数 ， 将 对 方 
的 a[2] 这 一 项 接收 过 来 ， 放 到 我 本 地 的 a[2] 上 ， 这 样 也 
可 以 。 

(4) 本 地 的 多 线程 同步 比如 屏障 ， 在 跨 网 络 环 
境 下 也 需要 实现 。 

所 以 ， 能 否 有 人 出 来 发 扬 一 下 风格 ,编写 一 下 
该 函数 或 者 一 组 函数 ， 专 门 方便 上 层 来 调用 ， 实 现 
MPP 架 构 下 的 多 线程 间 跨 网 络 数据 同步 管理 和 步调 管 
EB? 必须 的 。 终 于 前 人 编写 了 一 套 叫 作 MPI (Message 
Passing Interface) 的 函数 库 ， 满 足 了 MPP 架 构 的 并 行 
计算 场景 下 的 数据 同步 和 管理 需求 。 

除 此 之 外 ， 好 像 还 缺 了 点 什么 。 对 ， 那 就 是 如 何 
将 编写 好 的 代码 复制 到 MPP 集 群 中 所 有 机 器 上 并 启动 
执行 ， 抑 或 者 只 复制 到 部 分 节点 来 执行 。 总 之 ， 需 要 
一 个 集群 总 调度 器 程序 ， 而 且 MPP 集 群 中 所 有 机 器 上 
都 需要 安装 这 个 调度 器 程序 的 接收 端 。 这 样 ， 只 需要 
把 代码 复制 到 其 中 一 台 机 器 上 ， 然 后 就 可 以 通过 网 络 
将 该 代码 分 发 到 其 他 节点 ， 然 后 利用 该 调度 器 向 其 他 
节点 的 调度 器 发 送 指令 ， 启 动 对 方 机 器 上 的 程序 代码 
执行 。 当 然 ， 也 可 以 选择 将 多 个 线程 在 同一 个 节点 上 
(单一 系统 ) 执行 。 

不 同 组 织 机 构 开 发 了 不 同 的 MPI 通 信 库 ， 目 前 比 
较 常用 的 两 种 是 MPICH2/3 和 OpenMPI， 其 各 自 都 包 
含 MPI 函 数 库 以 及 对 应 的 MPI 程 序 调度 器 。 


9.3.2 ”MPI 库 基本 函数 简介 


要 向 所 有 线程 隐藏 底层 网 络 的 细节 ， 那 就 必须 自 
己 负责 维护 线程 号 和 IP 地 址 (或 者 其 他 网 络 地 址 〉 的 
对 应 关系 。 要 知道 对 应 关系 ， 就 必须 先 发 现 目前 网 络 
上 都 有 哪些 线程 在 准备 运行 ， 那 就 势必 需要 一 种 资源 
发 现 机 制 来 发 现 网 络 上 的 参与 本 次 并 行 计算 任务 的 所 
有 节点 。 一 般 来 讲 都 是 手动 将 参与 运算 的 所 有 节点 的 
主机 名 /TP 地址 写 入 到 某 个 配置 文件 中 的 静态 指定 方 
式 ， 因 为 实现 动态 发 现 的 成 本 太 高 。 此 外 ， 还 需要 生 
成 进程 号 与 网 络 地 址 的 映射 关系 ， 并 能 够 让 程序 可 以 
通过 调用 对 应 的 函数 来 获取 到 自己 的 进程 号 ， 以 及 获 
取 到 当前 任务 的 总 进程 数量 。 当 然 ， 还 必须 提供 数据 
接收 、 发 送 等 函数 。 下 面 我 们 就 来 介绍 一 下 MPI 这 套 
通信 库 中 的 一 些 基本 函数 。 

MPI_Init()。 每 个 线程 一 开始 都 必须 调用 该 函 
数 ， 该 函数 底层 会 做 相应 的 装备 工作 ， 包 括 弄 清楚 目 
前 有 多 少 个 进程 /线程 在 参与 执行 任务 ， 启 动 与 其 他 节 


第 9 章 “万 箭 齐 发 一 一 加 速 计算 与 超级 计算 机 IT 和 


点 的 通信 通道 (比如 建立 TCP/IP 连 接 等 ) ， 为 每 个 进 
程 /线程 分 配对 应 的 进程 标识 ID 等 ， 该 函数 底层 会 将 
一 切 所 需 的 资源 比如 各 种 对 应 表 等 保存 在 内 存 中 供 后 
续 使 用 。 至 于 该 函数 底层 具体 是 怎么 实现 的 ， 有 兴趣 
的 朋友 可 以 自己 去 查看 MPI 库 的 源 代 码 。MPI 也 有 多 
种 不 同 的 具体 实现 模式 ， 基 本 都 是 开源 的 ， 网 络 上 可 
以 获取 到 。 

MPI Finalize0。 每 个 线程 在 结束 并 行 化 执行 任务 
之 前 必须 调用 该 函数 ， 以 便 清理 掉 在 Init 阶 段 生成 的 
资源 。 

MPI_Comm Rank(MPI COMM WROLD, int 
*my_rank)。 该 函数 可 用 于 获取 到 当前 线程 的 ID 号 ， 
该 函数 底层 会 从 Init 阶 段 初始 化 好 的 表 中 获取 到 对 应 
的 ID 号 ， 并 将 ID 号 赋值 给 my_rank 变 量 (变量 名 可 以 
任意 指定 ) 。 不 同 的 线程 调用 该 函数 会 获取 到 各 自 的 
ID 号 。 线 程 可 以 根据 my_rank 的 值 决定 处 理 不 同 的 数 
据 或 者 执行 不 同 的 分 支 。 

MPI Comm Size(MPI COMM WROLD, int 
*#size)。 该 函数 返回 总 体 的 线程 数量 。 

MPI_Send( void *buf, int count, MPI_Datatype 
datatype, int dest, int tag, MPI COMM_WORLD)。 该 
函数 用 于 线程 向 其 他 线程 发 送 数据 。 其 参数 的 含义 
是 ， 把 位 于 *buf 指 针 上 的 缓冲 区 中 的 count 数 量 个 
数 ) 的 、 数 据 类 型 为 datatype 的 数值 (注意 ， 不 是 字 
节 数 ) ， 发 送 给 线程 标识 为 dest 的 线程 。tag 参 数 用 
来 区 分 不 同 的 数据 。datatype 可 以 是 : MPI CHAR, 
МРІ ЅНОВТ. MPI ІМТ. MPI LONG、MPI_ 
UNSIGNED CHAR、, MPI UNSIGNED SHORT、 
MPI UNSIGNED, MPI UNSIGNED LONG、MPI_ 
FLOAT, MPI DOUBLE, MPI LONG DOUBLE.、 
MPI ВУТЕ. MPI PACKED。 

MPI Recv(void* buf, int count, MPI_Datatype 
datatype, int source, int tag, MPI COMM_WORLD, 
MPI Status *status)。 该 函数 用 于 线程 接收 其 他 线程 发 
送 来 的 数据 。 其 参数 的 含义 是 ， 将 线程 标识 为 source 
的 线程 发 来 的 数据 类 型 为 datatype 的 、 字 节 数 为 count 
的 数值 ， 写 入 *buf 指 针 指向 的 缓冲 区 。 

如 图 9-13 所 示 为 MPI 接 收 和 发 送 函 数 用 法 的 最 
基本 的 例子 。 进 程 0 执 行 该 代码 时 ， 其 rank 变 量 会 
被 MPI_Comm _rank() 函 数 赋值 为 0， 所 以 其 执行 if( 
rank 一 0) 分 支 ， 走 入 了 发 送 数据 流程 。 进 程 1 执行 同样 
的 代码 ， 其 会 走 入 接收 数据 的 流程 。 篇 幅 所 限 ， 我 们 
省 略 了 进程 1 接收 完 数据 之 后 的 计算 过 程 ， 其 并 没有 
写 到 代码 中 。 这 里 再 次 强调 一 下 ， 同 样 的 代码 会 被 多 
个 线程 同时 执行 ， 代 码 中 的 各 种 if 浏 断 会 将 不 同 线程 
导向 不 同 分 支 执行 。 

如 图 9-14 所 示 为 稍微 复杂 一 些 的 接收 和 发 送 
过 程 ， 进 程 0 被 设计 为 从 其 他 两 个 线程 先后 接收 数 
据 ， 而 进程 1 和 进程 2 被 设计 为 同时 向 进程 0 发 送 
数据 。 
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#include “mpi.h” 


main(int argc, char ** argv) ( 进程 0 进程 1 
int a[60],rank,size; МРІ status status; | 
МР! Init(&argc,&argv); ЕЕ size=2 
МРІ Сотт _size(MPI_COMM_WORLD, &size); | 
MPI_Comm_rank((MPI_COMM_WORLD,&rank); О rankai 
if(rank==0) | 
МР! Send(a,20,MPI INT,1,99,MPI СОММ WORLD); + 
ш 发 送 消息 ”一 一 一 一 *| ”接收 消息 
if(rank==1) 
MPI_Recv(a,20,MPI_INT,0,99, MPI COMM_WORLD,&status); + | 
МР Нпаћге( ); 结束 结束 
} 
9-13 MPI 发 送 和 接收 函数 使 用 一 例 (1) 
MPI_Comm _rank(MPI_COMM_WORLD,&myid); 进程 0 进程 1 | 进程 2 
if(myid==0) 
{ MPI_Recv( buf1,10,MPI_INT,1,1,MPI_COMM_WORLD,&status); 
MPI_Recv (buf2,10,MPI_INT,2,1,MPI_COMM_WORLD,&status); 
} 
iimyiq==1) жане | жены 
MPI_Send (buf1,10 ,MPI_INT,0,1,MPI_COMM_WORLD у; 接收 消息 
И (туга ==2 ) 
МР! Ѕепа(Би#2,10 ,MPI INT,0,1,MPI COMM_WORLD ) ` ` ` 
图 9-14 ”MPI 发 送 和 接收 函数 使 用 一 例 2) 
МР! Comm rank(MPI COMM_WORLD,&myid); 进程 1 进程 2 || ..... | 进程 N-1 


if(myid==0) 


) 
if(myid==1) 

MPI_Send (buf1,10 ,MPI_INT,0,1,MPI_COMM_WORLD ); 
if (туд ==2) 

MPI_Send(buf2,10 ,MPLINT0,1,MPLCOMM_WORLD ) 


{ MPI_Recv( buf1,10,MPI_INT,MPI_ANY_SOURCE,1, MPI _COMM_WORLD,&status); 
MPI_Recv (buf2,10,MPI_INT, MPI_ANY_SOURCE,1,MPI_COMM_WORLD,&status); 


9-15 MPI 发 送 和 接收 函数 使 用 一 例 (3) 


如 图 9-15 所 示 为 使 用 了 一 个 特殊 参数 MPI_ANY_ 
SOURCE 时 的 场景 ， 该 参数 提示 接收 方 可 以 接收 任何 
线程 发 来 的 数据 ， 谁 先 到 就 接收 谁 。 这 种 完全 无 序 的 
数据 接收 方式 ， 对 应 着 一 种 常见 的 场景 ， 比 如 聊天 室 
场景 ， 谁 登录 了 ， 就 显示 “ 某 某 进入 聊天 室 ”， 而 不 
管 顺序 和 目标 是 谁 。 篇 幅 所 限 我 们 并 没有 在 代码 中 加 
入 printfO) 函 数 。 实 际 上 ， 接 收 到 数据 之 后 可 以 做 任何 
事情 ， 可 以 对 数据 进行 计算 ， 也 可 以 将 其 输出 到 显示 
器 或 者 发 送出 去 ， 这 完全 取决 于 程序 想 要 做 什么 。 

还 有 其 他 一 些 MPI 函 数 ， 比 如 非 阻塞 式 〈 调 用 后 
函数 立即 返回 ， 数 据 在 后 台 被 传送 ， 线 程 可 以 继续 
后 续 的 运算 逻辑 ， 可 以 让 运算 与 数据 传送 并 行进 行 ， 
以 提升 性 能 ) 数据 传送 函数 。 篇 幅 所 限 就 不 再 多 介绍 
了 ， 大 家 可 以 自行 查阅 。 
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上 文中 介绍 的 函数 都 是 点 对 点 通信 场景 下 使 用 ， 
而 有 不 少 场景 需要 广播 通信 、 点 对 多 点 通信 、 多 点 间 
同步 等 操作 。MPI 也 提供 了 对 应 的 函数 来 满足 这 些 群 组 
模式 的 通信 ， 这 些 场景 被 统称 为 群 组 通信 CCollective 
Communication) ， 或 者 又 被 称 为 聚合 通信 。 

MPI_Bcast(void *buffer,int count,MPI_ Datatype 
datatype,int roobMPI COMM_WORLD)。 该 函数 用 于 
线程 将 数据 广播 给 通信 域内 的 所 有 除了 发 送 方 线程 之 
外 的 节点 。 参 数 root 表 示 发 送 广 播 的 源 线程 标识 。 发 
送 方 调用 MPI_Beast()， 接 收 方 也 必须 在 同一 位 置 调 
用 MPI Beast. 18? 接收 端 为 什么 也 要 发 起 广播 ? 不 
是 这 样 理 解 的 。 接 收 端 调 用 该 函数 的 作用 是 为 了 接收 
广播 ， 该 函数 会 判断 当前 调用 者 线程 的 标识 是 否 与 


参数 root 相 同 ， 如 果 相 同 ， 则 表明 当前 线程 是 发 出 数 
据 ， 如 果 不 同 ， 则 表明 当前 线程 调用 该 函数 是 为 了 接 
收 root 线 程 发 来 的 广播 。 这 就 是 MPI 编 程 方式 的 特点 
之 一 ， 也 就 是 发 送 方 和 接收 方 永 远 都 要 配合 起 来 一 唱 
一 和 。 如 果 有 人 先 唱 到 了 这 一 段 ， 那 就 阻塞 等 待 ， 等 
对 方 也 唱 到 这 一 段 之 后 ， 继 续 往 下 唱 。 下 面 的 函数 如 
无 特殊 说 明 ， 均 为 发 送 方 和 接收 方 同时 调用 。MPI_ 
Beast() 函 数 底层 其 实 也 调用 了 MPI_Send() 和 MPI_ 
Recv(O) 函 数 ， 其 本 质 就 是 将 向 所 有 节点 的 单 播 过 程 封 
装 为 广播 。 同 理 ， 下 面 介绍 的 所 有 聚合 通信 类 函数 ， 
都 是 用 基本 的 MPI_ Send0 和 MPI Recv0 函 数 封装 而 成 
的 ， 你 也 可 以 自己 封装 一 个 聚合 通信 类 函数 出 来 。 如 
图 9-16 所 示 为 MPI Bcast0 的 执行 过 程 示 意图 。 
MPI_Scatter(void *sendbuf, int sendcount MPI_ 
Datatype sendtype, void *recvbuf, int recvcount, MPI_ 
Datatype recvtype, int root, MPI COMM WORLD )。 
该 函数 用 于 线程 将 自己 保有 的 数据 按照 sndcount 数 量 
为 一 组 均匀 地 散发 给 所 有 线程 (包括 自己 ， 线 程 除了 
是 数据 的 分 发 者 ， 同 时 也 是 计算 者 ， 所 以 也 需要 给 自 
己 留 一 份 数据 ) 。 比 如 ， 某 线程 生成 了 数组 a[100] 并 
初始 化 填充 了 其 中 所 有 的 值 ， 现 在 想 把 a[0] 到 a[100] 
各 自分 发 给 0 号 线程 的 a[0]、1 号 线程 的 a[0]、2 号 线程 
的 a[0]、…… 、100 号 线程 的 a[0] 处 。 如 果 使 用 MPI_ 
Send0 和 MPI Recev0， 一 个 一 个 地 发 送 和 接收 ， 没 问 
题 ， 但 是 代码 量 实在 是 太 大 了 ， 发 送 方 线程 中 要 执 


MPI_Bcast(A, 4, MPI_INT, 0, MPI COMM_WORLD) 
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行 101 次 MPI_ Send0 函 数 。 为 此 ，MPI 封 装 出 一 个 新 
函数 : MPI Scatter()。 该 函数 与 MPI Bcast0 相 比 ， 后 
者 是 将 同一 份 数据 广播 给 所 有 进程 ， 而 前 者 则 是 将 
不 同 的 数据 顺序 依次 分 发 给 所 有 进程 。 第 二 个 参数 
sendcount 用 于 控制 发 送 给 每 个 进程 的 数 的 个 数 ， 比 
如 进程 0 想 把 自己 的 a[0]，a[1]，a[2]，a[3] 分 发 给 进 
程 0， 把 a[4]，a[5] ，a[6]，a[7] 分 发 给 进程 1， 以 此 类 
推 ， 则 sendcount 应 该 设置 为 4。 该 函数 一 般 用 于 计算 
前 的 数据 分 发 ， 接 收 方 接收 到 数据 之 后 便 开始 各 自 处 
理 收 到 的 数据 。 在 实际 的 大 运算 量 科学 计算 例子 中 ， 
sendcount 参 数 的 值 可 能 会 是 百 万 级 别 ， 我 们 在 这 里 仅 
仅 是 为 了 举例 。 那 么 ， 自 然 会 想到 ， 处 理 完 之 后 是 不 
是 有 必要 将 结果 汇总 上 报 回 给 某 个 进程 处 理 昵 ? МРТ 
考虑 到 了 这 一 点 ， 封 装 出 了 MPI_Gather0 函 数 。 如 图 
9-17 所 示 为 MPI Scatter0 的 执行 过 程 示意 图 。 
MPI_Gather(void* sendbuf,int sendcount,MPI_ 
Datatype sendtype,void* recvbuf,int recvcount,MPI_ 
Datatype recvtype,int root, MPI COMM_WORLD). ìž 
函数 的 作用 就 是 所 有 的 进程 (包括 接收 方 进程 自己 》 
将 sendbuf 中 按照 线程 编号 和 sendcount 为 粒度 的 数据 
传递 给 接收 方 线程 (也 就 是 标识 为 root 的 线程 ， 或 者 
说 主线 程 ， 一 般 root 被 设置 为 0， 所 以 俗称 0 号 线程 ， 
当然 ， 可 以 将 root 变 量 的 值 设 定 为 任何 一 个 ID 号 。 
主线 程 一 般 做 一 些 计算 完毕 之 后 的 收尾 工作 ， 也 就 
是 无 法 被 并 行 或 者 不 值得 并 行 的 部 分 ) 。 假 设 共 有 
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图 9-16 MPI Bcast0 的 执行 过 程 示意 图 
МР! scatter(A, 2, МР! МТ, А, 2, MPI_INT, 0, МР! COMM WORLD) 
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图 9-17 MPI Scatter0 的 执行 过 程 示意 图 
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0、1、2、3 这 4 个 线程 ，0 为 主线 程 ， 当 它们 都 调用 
MPI Gather(A, 8, MPI ІМТ, А, 8, MPI INT, 0, MPI _ 
COMM_WORLD) 时 ，0 号 线程 会 将 它 自己 的 数组 A 中 
的 A[0] 一 A[7] 项 传递 给 线程 0〈 自 己 传送 给 自己 ， 没 问 
题 ， 该 函数 底层 并 不 会 真 的 与 自己 通信 ， 而 是 将 自己 
处 理 好 的 数据 复制 到 recvbuf 中 对 应 位 置 即 可 ) , 1% 
线程 则 将 它 自 己 数组 A 中 的 A[8] 一 A[15] 项 传递 给 线程 
0， 以 此 类 推 。 线 程 0 接收 到 数据 之 后 ， 会 将 这 些 数据 
统一 按照 线程 编号 次 序 放置 在 recvbuf 这 个 缓冲 区 中 ， 
recvbuf 只 是 一 个 指针 参数 的 名 称 ， 其 可 以 指向 线程 0 
所 维护 的 A[ ] 数 组 。 同 样 ， 多 个 发 送 线程 和 root 接 收 
线程 要 同时 调用 这 个 函数 来 实现 这 个 过 程 。 该 函数 底 
层 会 处 理 一 切 网 络 通信 方面 的 事务 。 如 图 9-18 所 示 为 
MPI Gather0 的 执行 过 程 示意 图 。 

MPI_Allgather(void* sendbuf,int sendcount,MPI_ 
Datatype sendtype,void* recvbuf,int recvcountMPI_ 
Datatype recvtype,MPI COMM_WORLD)。 该 函数 相 
当 于 每 个 线程 都 执行 一 次 Gather 操 作 ， 达 到 的 效果 则 
是 数据 在 所 有 线程 中 都 存在 一 份 完 整 的 副本 。 如 图 
9-19 所 示 为 MPI Allgather0 的 执行 过 程 示意 图 。 

MPI_AlltoAll(void* sendbuf,int sendcount,MPI_ 
Datatype sendtype,void* recvbuf,int recvcount,MPI_ 
Datatype recvtype,MPI_COMM_WORLD)。 该 函数 用 
于 实现 多 个 线程 之 间 的 数据 交叉 交换 ， 如 图 9-20 所 
示 ， 请 大 家 自行 体会 。 可 以 看 到 ，AlltoAll 通 信 方 式 
相当 于 以 每 个 线程 作为 root 线 程 执行 了 一 次 Scatter 分 


发 操作 。 不 过 要 深刻 领会 一 点 ， 这 些 函 数 底层 无 非 都 
是 调用 了 MPI Send0/MPI Recv0 一 步 一 步 实现 的 。 

MPI Barrier(MPI COMM_WORLD)。 该 函数 实 
现 的 功能 就 是 图 9-8 中 所 示 的 线程 屏障 功能 ， 其 底层 
的 机 制 与 前 文中 所 描述 的 也 是 类 似 的 。 值 得 一 提 的 
Æ, MPI SendO/MPI Recv0) 以 及 所 有 聚合 通信 类 函 
数 自 身 己 经 具有 了 屏障 作用 ， 因 为 其 执行 过 程 都 是 阻 
塞 式 的 。 但 是 有 些 时 候 ， 程 序 执行 到 一 些 非 通信 类 函 
数 ， 比 如 某 些 计算 类 函数 ， 此 时 可 能 程序 逻辑 要 求 所 
有 线程 在 计算 完 某 一 步 之 后 ， 才 能 发 起 通信 ， 那 就 需 
要 在 通信 函数 被 调用 之 前 ， 调 用 MPI Barrier() 屏 障 函 
数 ， 保 证 所 有 线程 都 已 经 计算 完毕 ， 然 后 开始 相互 同 
步 数 据 。 如 果 不 使 用 屏障 ， 先 计算 完成 的 线程 不 等 待 
而 继续 执行 ， 这 样 可 能 会 基于 旧 数 据 在 后 续 的 计算 中 
算出 错误 的 结果 。 

MPI Reduce(void* sendbuf,void* recvbuf,int 
count,MPI Datatype datatype,MPI_Op OP, int root, 
MPI_COMM_WORLD)。 该 函数 被 称 为 归 约 函数 。 
其 作用 是 从 所 有 进程 的 缓冲 区 中 获取 数据 并 将 收 到 
的 数据 做 某 种 运算 〈 由 参数 OP 指定 ) ， 然 后 将 运算 
结果 写 入 到 root 线 程 的 缓冲 区 内 。 该 函数 支持 的 运算 
HFA: MPI MAX 〈 求 最 大 值 ) 、MPI_MIN (Ж 
最 小 值 ) 最 小 值 MPI SUM (ЖЯ!) . МРІ PROD 
CRE) ~ MPI LAND (逻辑 与 ) МРІ BAND (ЈЕ 
位 与 ) МРІ LOR (逻辑 或 ) МРІ ВОВ ( 按 位 
或 ) MPI LXOR (1278) 、MPI_BXOR (#& 


МРІ Gather(A, 2, МРІ МТ, А, 2, МРІ ИМТ, 0, MPI COMM_WORLD) 
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图 9-18 MPI Gather0 的 执行 过 程 示意 图 
МР! Allgather(A, 2, MPI_INT, А, 2, МР! ИМТ, МР! СОММ WORLD) 
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图 9-19 MPI Allgather0 的 执行 过 程 示意 图 


位 异 或 ) ‚ MPI MAXLOC (最 大 值 上 且 相 应 位 置 ) 、 
MPI MINLOC (最 小 值 且 相应 位 置 ) 。 如 图 9-21 所 示 
为 MPI ReduceO 函 数 的 执行 过 程 示意 图 。 

FÆ, MPI_AllReduce(void* sendbuf,void* 
recvbuf,int count, MPI Datatype datatype,MPI_Op OP, 
MPI COMM_WORLD) 的 执行 过 程 如 图 9-22 所 示 。 

对 MPI 库 中 的 一 些 基本 函数 的 介绍 就 到 此 ， 其 他 
函数 请 大 家 自行 了 解 。 对 于 MPI 编 程 方式 ， 大 家 需要 
深刻 了 解 一 点 ， 那 就 是 发 送 和 接收 双方 执行 同样 的 代 
码 ， 但 是 会 走 入 不 同 的 分 支 。 双 方 调 用 同样 的 函数 ， 
但 是 却 有 不 同 的 行为 。 这 些 分 支 和 不 同行 为 ， 都 是 根 
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提示 * 

值得 一 提 的 是 ，MPI 只 是 一 个 函数 框架 库 和 标 
准 ， 至 于 每 个 标准 函数 的 具体 实现 细节 和 方式 ， 是 
可 以 自 定义 的 。 目 前 有 多 个 不 同 的 组 织 开 发 了 自 
己 的 MPI 库 。MPI 并 非 只 能 用 于 多 机 器 间 的 通信 ， 
也 可 以 用 于 单 台 机 器 多 个 线程 间 ， 或 者 是 多 CPU 多 
核心 ， 抑 或 是 单 核心 运行 多 个 线程 。MPI 也 可 以 支 
持 利用 共享 内 存 的 方式 来 通信 ， 比 如 MPI Send()/ 
MPI Recv0O 函 数 内 部 并 不 一 定 真 的 要 调用 到 网 卡 驱 
动 这 一 层 去 发 送 消息 ， 而 完全 可 以 利用 共享 内 存 方 
式 来 实现 Send 和 Receive。 


据 代码 中 的 if 判 断 以 及 函数 参数 中 的 值 与 当前 执行 线 
程 的 标识 等 信息 比较 而 导致 的 。 

MPI_AlltoAll(A, 2, MPI_INT, А, 2, MPI_INT, МР! COMM WORLD) 
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图 9-20 MPI AlloAll0 的 执行 过 程 示意 图 

МР!_Кедисе(А, А, 1, МР! ИМТ, MPI_SUM, 0, МР! COMM WORLD) 
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图 9-21 MPI Reduce0 的 执行 过 程 示意 图 

MPI_AllReduce(A, А, 1, MPILINT MPI_SUM, МР COMM WORLD) 
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图 9-22 MPI AlIReduce0 执 行 过 程 示意 图 


四 0 大 话 计算 机 一 一 计算 机 系统 底层 架构 原理 极限 剖析 


那么 ， 大 规模 MPP 集 群 在 物理 上 是 什么 样子 的 
呢 ， 它 又 应 该 是 什么 样 的 呢 ? 没有 应 该 ， 你 想 让 它 
是 什么 样 都 可 以 。 比 如 早期 穷苦 的 时 候 ， 它 是 如 图 
9-23 所 示 这 样子 的 ， 也 就 是 直接 用 PC 小 鞭炮 来 搭建 
炮弹 。 

喷 喷 ， 冬 瓜 哥 ， 你 为 啥 贴 这 么 没 “ 品 位 ”的 图 
呢 ? 哦 ， 你 来 告诉 我 一 下 ， 什 么 叫 “ 品 位 ”? 穿 上 好 
看 的 衣服 打扮 打扮 就 有 品位 了 ? 那 如 图 9-24 所 示 ， 这 
些 都 是 全 球 知 名 的 超级 计算 机 。 嗯 ? 超级 计算 机 不 应 
该 是 一 台 硕大 无 比 的 科幻 一 般 的 机 器 么 ”印象 中 它 应 
该 是 拥有 数 万 个 CPU 核心 、 能 够 统治 人 类 、 让 人 类 无 
限 崇 拜 的 主脑 综合 体 啊 ! 你 这 就 属于 科幻 综合 征 了 。 
所 以 说 ， 什 么 品位 之 流 ， 都 是 骗 人 的 。 

穿 上 好 看 的 衣服 ， 并 没有 改变 大 规模 MPP 集 群 是 
多 台独 立 计算 机 相互 连接 起 来 的 本 质 。 如 图 9-25 所 示 
为 这 些 所 谓 超级 计算 机 内 部 的 情况 。 可 以 看 到 它们 也 
都 是 由 一 台 台 独立 的 小 计算 机 通过 网 络 连 接 起 来 的 
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只 不 过 被 扣 上 一 个 好 看 的 壳 子 ， 加 上 一 些 装 饰 点 绥 ， 
给 人 造成 了 “超级 ”和 “科幻 ”的 假象 。 嗯 ? 那么 为 
什么 图 9-24 左 侧 那个 IBM 蓝 色 基因 了 型 超级 计算 机 的 
外 壳 要 做 成 斜 的 呢 ? 一 定 有 原因 ! 告诉 你 ， 没 有 任何 
原因 ， 四 四 方 方 没有 “品位 ”， 这 就 是 原因 。 图 中 中 
间 的 圆柱 型 外 壳 ， 也 是 为 了 品位 ， 右 侧 的 Titan 超 级 计 
算 机 前 面板 上 的 图 案 ， 也 为 了 品位 ， 看 图 右 侧 ， 两 个 
人 正在 给 它 化 妆 。 

所 以 ， 超 级 计算 机 其 实 就 是 经 过 定制 化 的 、 每 
个 计算 节点 体积 更 紧凑 的 超大 规模 MPP 集 群 系统 。 
“ 超 算 ” 说 白 了 就 是 大 规模 并 行 计算 ， 将 一 个 计算 
任务 利用 诸如 MPI 等 方式 并 行 化 ， 利 用 同一 份 代码 让 
大 量 执行 这 套 代 码 的 线程 载 入 到 大 量 CPU 核 心 上 去 
执行 。 

如 果 所 有 CPU 之 间 是 通过 比如 QPI 这 种 高 速 低 时 
延 网 络 来 共享 内 存 的 ， 那 么 并 行 编程 将 十 分 方便 ， 线 
程 之 间 直 接 访问 内 存 地 址 就 可 以 读 写 对 应 的 变量 。 
比如 线程 1 对 变量 a 做 了 +1 操 作 ， 线 程 2 要 访问 变量 a 
的 话 ， 就 直接 访问 a 所 在 的 内 存 地 址 就 可 以 了 ， 线 程 


1 与 线程 2 在 初始 化 a 这 个 变量 的 时 候 ，a 的 地 址 便 固定 
了 ， 所 以 线程 1 和 线程 2 都 知道 访问 a 就 得 去 某 某 内 存 
地 址 。 但 是 在 几 万 颗 CPU 的 大 规模 超 算 场 景 下 ， 使 用 
QPI 这 种 网 络 将 这 么 多 CPU 连 接 起 来 是 不 现实 的 ， 
为 首先 QPI 是 高 速 信号 ， 不 能 传播 太 远 的 距离 ， 其 次 
就 是 成 本 太 高 。 

人 们 迫不得已 ， 不 得 不 使 用 低速 网 络 比 如 
10GB/40GB 以 太 网 、Infiniband 以 及 其 他 一 些 鲜 为 人 
知 的 专用 网 络 来 连接 这 些 CPU。 然 而 这 些 网 络 由 于 速 
度 低 于 QPI， 时 延 也 高 于 QPI， 所 以 其 不 适合 共享 内 
存 方式 访问 ， 如 果 强 制 在 这 种 高 时 延 网 络 上 共享 内 存 
的 话 ， 那 么 CPU 访 问 内 存 时 候 会 等 待 很 久 才能 拿 到 数 
据 ， 从 而 阻塞 流水 线 ， 极 大 拖累 计算 性 能 。 所 以 要 将 
其 变 为 外 部 系统 IO+ 中 断 方式 ， 让 数据 的 传送 在 后 台 
异步 进行 ， 也 就 是 将 适 配 对 应 网 络 的 网 卡 接 入 到 比 
如 PCIE 总 线 ， 然 后 使 用 驱动 的 方式 ， 通 过 系统 IO 来 
在 这 些 CPU 之 间 相互 通信 传递 数据 。 用 了 这 种 方式 之 
后 ， 程 序 发 出 IO 访问 请 求 之 后 便 可 以 继续 执行 ， 这 
样 不 浪费 CPU 时 钟 周期 。 这 样 ， 这 几 万 颗 CPU 其 实 就 
是 从 之 前 的 共享 内 存 的 紧 耦 合 单 系统 ， 变 成 了 通过 网 
络 1/0 方 式 相互 通信 的 多 个 单 系统 ， 也 就 是 多 台独 立 
的 计算 机 ， 或 者 称 为 节点 。 

超级 计算 机 所 使 用 的 CPU、 内 存 、 网 络 多 数 时候 
与 普通 服务 器 没什么 两 样 ， 由 于 需要 提升 密度 ， 在 一 
个 机 房 内 容纳 更 多 CPU 节点 ， 所 以 其 硬件 设计 有 时 候 
会 与 普通 服务 器 的 迎 异 ， 设 计 要 点 主要 是 高 密度 ， 
下 文中 会 看 到 一 些 实 例 。 再 就 是 使 用 的 网 络 一 般 都 
是 比 以 太 网 更 高 速 的 网 络 ， 起 码 得 是 万 兆 以 太 甚至 
Infiniband。 而 且 ， 连 接 数 千 个 机 箱 ， 需 要 大 量 的 网 
络 交换 机 和 连 线 。 网 络 拓扑 也 很 有 讲究 ， 比 如 树 形 拓 
扑 、Torus 拓 扑 等 ， 这 些 我 们 在 下 文中 都 会 介绍 一 二 。 
不 同 拓扑 ， 对 广播 的 处 理 效率 不 同 ， 这 方面 也 是 众多 
超 算 研 究 者 研究 的 课题 。 如 果 是 通过 有 线 连 接 方式 的 
话 ， 一 个 全 网 广播 ， 要 通过 多 跳 才 能 完成 ， 时 延 很 
高 ， 那 是 否 可 以 使 用 无 线 WiFi 方 式 直接 让 源 节点 一 跳 
便 可 以 连接 到 其 他 所 有 节点 ? 

在 超 算 环境 下 ， 也 并 不 是 所 有 CPU 都 不 能 共享 内 
存 。 如 果 整 个 超 算 集群 中 存在 一 些 多 CPU 紧 耦 合 的 服 
务 器 节点 ， 比 如 4 路 CPU 紧 耦 合 服务 器 节点 ， 那 么 运 
行 在 这 4 个 CPU 上 的 进程 /线程 之 间 便 可 以 直接 共享 内 
存 ， 而 无 需 通过 外 部 网 络 互 传 数据 ， 此 时 效率 会 非常 
高 ， 这 种 拥有 数量 较 高 的 紧 耦 合 CPU 的 节点 称 为 胖 节 
点 。 而 相对 来 讲 ， 只 有 1 颗 或 者 少数 几 颗 CPU 的 节点 
就 成 为 瘦 节 点 。 瘦 节点 虽然 拥有 少量 的 CPU， 但 是 如 
果 这 个 CPU 是 多 核心 的 ， 那 么 运行 在 单 颗 CPU 内 部 多 
核心 上 的 线程 /进程 之 间 也 是 可 以 共享 内 存 通信 的 。 当 
然 ， 胖 节点 的 成 本 远 高 于 瘦 节 点 。 

由 于 数据 需要 不 断 地 在 超 算 计算 机 节点 之 间 的 
互联 网 络 上 传 来 传 去 ， 有 些 子 任务 之 间 依 赖 比 较 紧 
密 的 计算 ， 比 如 子 任务 运算 到 某 个 阶段 ， 必 须要 其 
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他 子 任务 的 计算 结果 ， 那 么 其 必须 等 待 其 他 节点 算 
完 ， 并 将 数据 通过 网 络 获取 到 ， 才 可 以 继续 。 有 时 
候 其 他 节点 已 经 算 完了 ， 但 是 由 于 网 络 上 负载 很 
大 ， 或 者 时 延 太 高 ， 传 过 来 需要 较 长 的 时 间 ， 那 么 
该 子 任务 所 在 的 CPU 就 不 得 不 空转 ， 这 是 一 种 严重 
的 浪费 。 所 以 ， 多 数 场景 下 ， 超 级 计算 机 的 性 能 瓶 
颈 在 于 节点 间 的 互联 网 络 ， 而 不 是 CPU 或 者 RAM， 
后 者 有 时 候 是 过 剩 的 。 

也 有 些 计 算 任务 的 子 任务 之 间 毫 无 依赖 关系 ， 
比如 线程 1 计算 x=atb， 线 程 2 计算 y=c+d， 线 程 3 计 算 
z=x+y， 线 程 1 和 线程 2 之 间 是 纯粹 并 行 关系 ， 而 线程 
3 则 只 能 等 待 其 他 两 个 线程 计算 完毕 之 后 才能 输出 结 
果 ， 所 以 线程 3 对 其 他 线程 有 依赖 关系 。 但 是 线程 1 和 
线程 2 之 间 根 本 不 需要 通信 ， 所 以 对 应 的 超 算 集群 也 
就 不 需要 这 么 高 速 的 网 络 互 连 ， 万 兆 以 太 可 能 就 够 
了 。 而 这 种 子 任务 之 间 依 赖 关 系 很 松 的 计算 的 效率 
最 高 。 

国内 几 家 大 型 互联 网 公司 每 一 家 的 总 服务 器 保有 
量 都 在 几 十 万 台 级 别 ， 其 本 质 上 也 组 成 了 MPP 集 群 。 
那么 这 些 互联 网 公司 内 部 是 否 有 大 运算 量 的 业务 在 运 
行 ? 有 的 ， 大 数据 分 析 、 人 工 智 能 等 业务 的 运算 量 、 
存储 量 都 很 大 。 但 是 互联 网 公司 的 服务 器 集群 一 般 不 
会 运行 科学 计算 类 业务 。 

超级 计算 机 的 耗 电量 很 大 ， 随 着 整个 集群 的 节点 
数量 的 多 少 而 不 同 ， 一 般 来 讲 都 在 10MW 功 率 级 别 ， 
这 意味 着 每 小 时 将 耗费 一 万 度 电 。 那 么 超级 计算 机 如 
何 启动 ? 超级 计算 机 的 操作 系统 是 什么 样 的 ? 程序 是 
如 何 运行 在 超级 计算 机 上 的 ? 我 们 下 面 就 来 介绍 一 些 
比较 知名 的 超级 计算 机 。 


IBM 蓝 色 基 因 


IBM 著 名 的 战胜 国际 象棋 大 师 的 那 台 计 算 机 就 是 
蓝 色 基 因 P 超 级 计算 机 。 


9.4.1.1 中 央 处 理 器 CPU 


如 图 9-26 所 示 为 蓝 色 基因 ?超级 计算 机 CPU 处 理 
器 芯片 内 部 架构 图 ， 左 右 两 边 等 价 。 该 处 理 器 是 一 
片 专用 芯片 ， 其 集成 了 PowerPC 450 的 CPU 核心 ， 以 
及 一 些 外 围 关键 器 件 : Multiplexing Switch, Torus 
(Torus Network) 、Collective (Tree Network) 、 
Barrier (Global Interrupt) 。 每 两 个 CPU 核心 公用 一 个 
复 用 器 ， 这 个 复 用 器 分 别 连接 到 2 片 L3 缓 存 、Torus 路 
由 器 、Collective 网 络 路 由 器 、Barrier 网 络 路 由 器 ， 形 
成 一 个 基于 复 用 器 的 交换 矩阵 。 

图 9-27 所 示 为 蓝 色 基因 /P 处 理 器 晶 圆 布局 图 以 及 
蓝 色 基因 /Q 型 号 的 处 理 器 架构 图 。 可 以 看 到 Torus、 
Collective、Barrier 这 三 种 网 络 被 合并 统一 到 一 个 5D 
Torus 〈 详 见 图 6-52) 网络 里 了 。 另 外 ， 基 于 复 用 器 的 
交换 矩阵 也 改 为 了 Crossbar。 
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9.4.1.2 计算 节点 和 I/O 节 点 


CPU 和 内 存 被 集成 到 一 张 如 图 9-28 所 示 的 子 卡 
上 。32 张 子 卡 ， 外 加 2 张 单独 负责 数据 MO 的 子 卡 ， 共 
34 张 子 卡 插 在 一 个 大 单 板 上 ， 形 成 一 个 模块 ， 叫 作 
Node Card， 每 张 子 卡 叫 作 一 个 Node。 计 算 节点 如 果 
需要 读 写 文件 以 及 使 用 TCPIP Socket 服 务 的 话 ， 必 须 
将 文件 W/O 以 及 Socket 请 求 通过 Collective Network ( 
FX) 转发 给 IO 节点 ，IO 节 点 再 通过 10Gb 以 太 网 络 
将 IO 请 求 发 送 给 存储 系统 〈 比 如 一 个 独立 的 Lustre 分 
布 式 文件 系统 集群 ) 或 者 TCPIP 目 标 IP 设 备 。 计 算 节 
点 上 的 OS 是 个 高 度 精简 的 Linux 内 核 ， 其 中 根本 不 包 
含 任何 文件 系统 或 TCPIP 模 块 ， 所 以 从 VFS 层 下 来 的 
针对 文件 的 /JO 和 Socket 请 求 都 会 被 底层 模块 重 定向 转 
发 到 1/O 节 点 ， 然 后 转 出 到 分 布 式 文件 存储 系统 中 执 
行 ， 最 后 返回 结果 。 


9.4.1.3 三 个 独立 网 络 同时 传递 数据 


上 文中 我 们 看 到 了 每 个 计算 节点 上 的 CPU 芯片 内 
部 集成 了 三 个 独立 的 网 络 路 由 器 ， 分 别 是 Torus 网 络 
路 由 器 、Collective 网 络 路 由 器 、Barrier 网 络 路 由 器 。 
我 们 PC 上 的 CPU 是 通过 PCIE 总 线 连接 以 太 网 卡 然后 
出 线 缆 连接 以 太 网 交换 机 的 ， 这 一 点 没有 本 质变 化 。 
在 蓝 色 基因 超级 计算 机 的 网 络 里 ，CPU 同 样 是 通过 内 
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部 总 线 〈 但 不 是 PCIE) 连接 了 网 络 控制 器 〈 相 当 于 网 
卡 ) ， 只 不 过 这 个 控制 器 连同 路 由 器 一 起 都 被 集成 到 
了 CPU 内 部 ， 如 图 9-29 所 示 。 三 个 独立 网 络 共 用 一 个 
集 线 板 ， 三 种 网 络 的 信号 、 拓 扑 被 捆绑 到 外 置 线 缆 传 
弟 到 其 他 集 线 板 。 

Torus 网 络 控制 器 和 路 由 器 。 该 模块 在 每 一 片 CPU 
上 都 集成 了 一 个 。 其 用 于 计算 节点 之 间 的 MPI 点 对 点 
数据 通信 。 其 互联 结构 为 3D Torus， 数 据 传输 每 一 跳 
时 延 3 us， 最 差 情况 10 us。Torus 网 络 是 通信 最 为 频 
繁 的 网 络 。 这 个 路 由 器 使 用 的 是 私有 协议 ， 但 是 本 
质 上 和 以 太 网 交换 机 、IB 交 换 机 类 似 。 在 3D Torus 结 
构 中 ， 每 个 节点 需要 与 其 他 6 个 邻居 相连 ， 所 以 被 集 
成 到 CPU 芯片 内 部 的 这 个 Torus 路 由 器 至 少 要 有 7 个 端 
口 ，1 个 用 于 连接 CPU 本 地 Torus 网 络 控制 器 (类 似 以 
太 网 卡 ， 当 然 ， 也 是 被 集成 到 CPU 内 部 的 ) ，6 个 用 
于 连接 其 他 邻居 CPU 中 的 Torus 路 由 器 。 由 于 这 个 网 络 
流量 负载 最 高 ， 所 以 其 网 络 控制 器 带 有 一 个 DMA 控 
制 器 ， 用 于 与 本 节点 的 RAM 交 互 数据 ， 以 节省 CPU 核 
心 的 开销 。 

Collective 网 络 控制 器 和 路 由 器 。 同 样 也 被 集成 
在 每 片 CPU 内 。 这 个 网 络 属于 树 形 网 络 ， 连 接 所 有 的 
计算 和 IO 节点 ， 所 承载 的 流量 主要 是 MPI 广 播 、MPI 
Reduction〈 归 约 通信 等 MPI 聚 合 通信 类 流量 ， 以 及 
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图 9-28 ” 蓝 色 基因 /处理 器 节点 和 计算 卡 (Node Card) 
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CPU 芯片 ”CPU 核心 


图 9-29 开放 式 系统 与 蓝 色 基因 在 网 络 互联 上 的 区 别 示 意图 


数据 IO 流量 〈 计 算 节点 与 IO 节点 间 的 IO 请 求 及 数 
据 ) 。 单 向 树 遍 历时 延 Su s. 

Barrier 网 络 控制 器 和 有 路由器。 同样 被 集成 在 每 片 
CPU 内 。 这 个 网 络 同样 属于 树 形 网 络 ， 连 接 所 有 计算 
节点 。 这 个 网 络 主要 用 来 承载 MPI Barrier 调 用 时 产生 
的 流量 。 由 于 MPI Barrier 函 数 底层 需要 频繁 的 通信 来 
追踪 每 个 线程 的 执行 状态 ， 以 便 让 它们 达到 一 致 的 步 
调 ， 所 以 这 个 网 络 时 延 很 低 ， 遍 历 一 个 由 72000 个 节 
点 组 成 的 树 形 网 络 只 需要 1.3 us。 当 程序 调用 了 对 应 
的 MPI 函 数 时 ， 这 些 函 数 底层 会 自动 调用 对 应 的 网 络 
接口 函数 将 这 些 MPI 消 息 传输 到 对 应 的 节点 。 


提示 ?* ”超级 计算 机 的 内 存 管 理 


除 此 之 外 ， 超 级 计算 机 中 的 这 些 网 络 控制 器 ， 
多 数 都 支持 全 局 内 存 映 射 ， 也 就 是 将 其 他 节点 的 内 
存 映射 到 本 地 内 存 空 间 ， 从 而 形成 一 个 全 局 的 内 
存 空间 池 ， 但 是 由 于 远程 内 存 访 问 时 延 较 大 ， 所 以 
在 程序 上 需要 区 别 对 待 ， 这 就 是 所 谓 分 布 式 共享 
内 存 。 其 不 同 于 纯粹 的 ccNUMA， 后 者 直接 对 OS 
和 程序 透明 ( 当然 也 会 开放 一 部 分 感知 接口 比如 告 
诉 OS 某 些 地 址 是 远 端 ， 从 而 可 以 让 OS 进 行 分 配 优 
化 ) 。 然 而 超级 计算 机 中 的 分 布 式 共享 内 存 需要 OS 
或 者 程序 自行 映射 和 管理 及 使 用 ， 映 射 完成 之 后 ， 
程序 可 以 直接 访问 对 应 的 远 端 内 存 映射 到 本 地 的 内 
存 地 址 ， 程 序 很 明确 知道 它 在 访问 远 端 内 存 。 而 
ccNUMA 系 统 中 的 程序 可 是 不 知道 这 一 点 的 ， 系 统 
的 BIOS 向 OS 呈 现 的 就 是 全 局 的 内 存 空间 ， 整 个 系 
统 可 以 只 使 用 一 个 OS 来 管理 ， 程 序 会 认为 整个 内 存 
空间 都 像 在 本 地 一 样 没有 性 能 上 的 区 别 ， 其 实 底层 
是 被 0S 屏蔽 并 优化 了 而 已 。 超 级 计算 机 系统 规模 
很 大 ， 所 以 很 少 有 做 成 全 局 ccNUMA 的 ,但 仍 有 少 
数 除外 ， 上 比如 第 6 章 中 介绍 过 的 SGI Origin 系 统 便 是 
一 个 全 局 ccNUMA 系 统 。 所 以 ,你 应 该 已 了 解 ， 境 
合 最 紧 的 是 SMP、NUMA 或 者 ccNUMA 系 统 ， 其 内 


存 地 址 完全 对 上 层 透明 。 对 于 NUMA 系 统 ， 有 些 多 
线程 编程 的 库 来 方便 将 单线 程 程序 自动 转变 为 多 线 
程 程序 以 便 更 好 利用 多 CPU 系统 ， 比 如 OpenMP， 
其 必须 基于 全 局 透明 共享 内 存 体系 。 耦 合 稍微 松 一 
些 的 是 分 布 式 共享 内 存 ， 虽 然 每 个 节点 也 可 以 看 到 
全 局 的 内 存 空间 ， 但 是 不 对 上 层 透 明 ， 需 要 OS 或 
者 程序 自行 映射 管理 ， 程 序 自己 管理 虽然 灵活 ， 但 
是 不 方便 。 为 此 ， 有 一 些 代 码 库 专门 负责 处 理 内 存 
映射 ， 封 装 一 层 并 且 暴 露 一 些 更 易 用 的 接口 ， 比 如 
SHMEM、PGAS、UPC、CAF 等 。 还 有 些 更 大 规 
模 的 超级 计算 集群 ， 由 于 时 延 更 不 好 控制 ， 除 非 手 
动 操作 ， 一 般 不 宜 使 用 共享 内 存 的 方式 ， 这 类 系统 
多 使 用 MPI 通 信 方 式 ， 程 序 调用 MPI 接 口 主动 向 其 
他 节点 上 的 程序 发 送 对 应 的 数据 ， 而 不 是 通过 读 写 
某 内 存 地 址 从 而 底层 自动 将 数据 发 送 到 远 端 或 从 远 
端 读 入 。 当 然 如 果 一 些 特殊 场景 必须 使 用 访 存 方式 
交换 数据 ， 这 类 系统 一 般 也 都 支持 RDMA ， 由 于 这 
种 大 规模 系统 多 使 用 Infiniband、10GE 等 相对 较为 
开放 通用 的 网 络 互 联 方案 ， 实 现 RDMA 的 话 需 要 这 
些 网 卡 的 驱动 提供 支持 才 可 以 。 综 上 ， 从 纯 NUMA 
的 全 局 内 存 空间 ， 到 分 布 式 共享 内 存 的 有 区 别 的 全 
局 内 存 空间 ， 再 到 分 布 式 非 共享 内 存 的 消息 传送 机 
制 完成 数据 交换 ， 系 统 的 耦合 度 一 步 步 变 松 。 系 统 
耦合 度 的 松紧 取决 于 网 络 的 时 延 和 带宽 ， 随 着 网 络 
时 延 的 增 大 ， 体 系 结构 、 协 议 、 开 放 程 度 、 表 现形 
式 ， 也 都 会 跟着 变化 ， 但 是 它们 的 目的 都 是 一 样 
的 ， 那 就 是 通信 和 沟通 。 


9.4.1.4” 蓝 色 基因 Q 的 网 络 控制 和 路 由 实现 


上 文中 提 到 过 ， 蓝 色 基 因 P 的 处 理 器 中 为 三 种 不 
同 的 消息 实现 了 不 同 的 控制 器 和 路 由 器 。 而 蓝 色 基因 
Q 是 P 的 进化 版 ， 为 了 节省 成 本 ， 其 将 多 个 网 络 合 为 一 
个 ， 并 且 通 过 前 文中 所 述 的 5D Torus 将 所 有 处 理 器 互 


联 起 来 。 

如 图 9-30 所 示 为 蓝 色 基因 Q 的 处 理 器 芯片 布局 
图 。 位 于 最 下 方 的 便 是 网 络 控制 器 (Msg Unit) 部 分 
以 及 网 络 路 由 器 〈 图 中 的 Network) 部 分 。SerDes 串 
并 转换 和 编码 部 分 占据 了 路 由 器 很 大 一 部 分 空间 。 


图 9-30 ” 蓝 色 基因 /Q 的 处 理 器 布局 图 


如 图 9-31 所 示 分 别 为 Msg Unit (MU) 以 及 路 由 
器 (Network Device, ND) 的 硬件 模块 示意 图 。MU 
(Message Unit) ， 顾 名 思 义 ， 负 责 控制 与 其 他 节点 
之 间 的 数据 互 传 ， 本 质 上 就 是 一 款 网 路 IO 控制 器 。 
其 上 行 与 CPU 中 央 的 XBAR 〈Crossbar 交 换 矩 阵 ) 对 
接 ， 从 而 可 以 直接 读 写 RAM 甚 至 Cache。 也 就 是 说 ， 
该 WO 控制 器 的 前 端 接口 是 XBAR 接 口 ， 而 并 不 是 我 们 
前 文中 介绍 的 在 开放 式 系统 中 普遍 使 用 的 PCIE， 毕 竟 
这 是 一 款 为 超 算 场景 专门 设计 的 处 理 器 芯片 。 

Slave Port 负 责 接受 前 端 XBAR 发 来 的 数据 ， 
Master Port 负 责 主动 向 连接 到 XBAR 的 其 他 部 件 
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(比如 DDR Memory Controller，MC 或 者 Cache 
Controller) 发 起 读 写 请 求 。DCR 是 Device Control 
Register， 用 于 系统 初始 化 或 者 驱动 程序 来 配置 MU 的 
各 种 参数 。Injection Control (IC) 模块 负责 从 RAM 中 
取 回 需要 发 送 的 数据 包 。 了 驱动 程序 首先 在 RAM 中 特 
定位 置 处 的 循环 队列 尾部 生成 一 个 任务 描述 结构 ， 该 
描述 结构 中 包含 待 发 送 消息 在 RAM 中 所 存放 的 起 始 
位 置 、 长 度 、 目 的 等 一 系列 信息 ， 然 后 向 MU 的 DCR 
中 的 特定 寄存 器 俗称 Doorbell 寄 存 器 ， 很 多 1/O 卡 都 
使 用 这 种 机 制 ， 详 见 本 书 其 他 章节 ) 写 入 该 任务 在 循 
环 队列 中 的 序号 或 者 地 址 。DCR 寄 存 器 被 写 入 该 信号 
之 后 将 产生 一 个 中 断 信 号 发 送 给 MU 中 的 嵌入 式 处 理 
器 ， 该 处 理 器 会 让 IC 模块 操纵 Master Port 直 接 从 主机 
RAM 中 对 应 地 址 处 取 回 由 驱动 程序 所 描述 的 任务 结 
构 ， 并 存储 到 MC (Message Control) SRAM 中 等 待 
处 理 。 而 IC SRAM 中 存储 的 则 是 RAM 中 的 任务 描述 
结构 循环 队列 在 RAM 中 的 位 置 、 大 小 、 首 尾 地 址 等 信 
息 ， 用 来 追踪 循环 队列 中 还 剩 多 少 任务 没 被 取 回 ( 首 
地 址 和 尾 地 址 不 一 致 则 证 明 有 任务 积压 ) 。 上 述 的 I/ 
O 处 理 流 程 与 第 7 章 中 介绍 的 类 似 。 

iME (Injection Messaging Engine) 则 负责 从 MC 
SRAM 中 取出 一 个 任务 ， 根 据 该 任务 所 描述 的 消息 位 

置 、 长 度 等 信息 ， 操 纵 Master Port 通 过 XBAR 从 RAM 
中 将 消息 取 回 并 将 其 打包 《〈 压 入 源 和 目的 地 址 以 及 控 
制 字 段 等 ) 生成 网 络 Packet， 并 将 该 包 压 入 路 由 器 的 
输入 队列 (图 中 的 ND Injection FIFOs) ， 这 样 便 发 
出 了 一 条 消息 。 然 后 iME 通 知 IC 模块 ， 后 者 则 从 MC 
SRAM 中 删 掉 该 条 任务 描述 结构 ， 修 改 IC SRAM 中 所 
保存 的 循环 队列 尾部 指针 前 移 一 个 位 置 ， 同 时 操纵 
Master Port 将 RAM 中 循环 队列 的 尾部 指针 也 前 移 一 个 
位 置 ， 然 后 通过 MU 中 的 Interrupt 模 块 向 主 CPU 发 起 一 
个 中 断 。 该 中 断 被 MU 的 驱动 程序 处 理 ， 驱 动 程序 从 
而 得 知 MU 消费 了 (发 送 了 ) 一 条 消息 ， 然 后 驱动 程 
序 可 以 继续 向 MU 发 起 上 述 过 程 ， 循 环 往复 ， 因 为 驱 
To Global Barrier 
Control & Status in 

MU 
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图 9-31 
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网 络 部 分 的 控制 器 (MU) 和 路 由 器 CND) 
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动 程序 在 源源 不 断 接收 上 层 程序 发 来 的 消息 请 求 。 为 
了 增加 并 行 度 ，RAM 中 可 以 有 多 个 循环 队列 。MU 通 
俗 地 讲 就 相当 于 一 块 网 卡 控制 器 ， 其 连接 到 网 络 交换 


机 /路 由 器 上 ， 从 而 与 其 他 众多 节点 通信 。 


接收 过 程 ， 则 执行 相反 动作 。 首 先 ， 
(Receiving Messaging Engine) 从 路 由 器 的 
Reception FIFO 队 列 中 取 回 一 条 消息 ， 抛 掉 网 络 包 头 
露出 Payload 后 放 入 RPUT SRAM。Reception Control 
模块 根据 RC SRAM 中 所 指示 的 RAM 中 接收 队列 所 
在 位 置 、 收 尾 地 址 指针 以 及 新 收入 消息 应 该 存储 的 
位 置 ， 操 纵 Master Port 将 该 消息 写 入 对 应 RAM 位 
置 ， 然 后 向 主 CPU 发 出 中 断 ， 让 驱动 来 处 理 这 条 收 
到 的 消息 ， 驱 动向 MU 中 DCR 相 关 的 寄存 器 写 入 信和 号 
以 表示 它 已 收 到 并 处 理 了 该 条 消息 。 然 后 Reception 
Control 模 块 修改 RC SRAM 中 对 应 的 指针 ， 将 尾部 指 
针 前 移 一 个 位 置 ， 从 RPUT SRAM 中 删 掉 对 应 的 消 
息 Payload。 然 后 继续 上 述 过 程 。MU 中 的 Universal 
Performance Counter (UPC) 则 记录 一 些 性 能 相关 的 
计数 器 比如 接收 和 发 送 的 包 数 量 统计 、XBAR 接 口 带 


宽 利用 率 统计 等 。 


系统 发 出 的 Barrier 消 息 会 通过 驱动 向 MU 中 DCR 
中 一 个 专用 寄存 器 写 入 对 应 的 信息 ， 触 发 MU 通过 
Global Barrier Control 模 块 向 路 由 器 中 的 Central Global 
Barrier Logic 模 块 发 送 消息 ， 从 而 向 网 络 上 其 他 节点 
发 送 Barrier 消 息 。 路 由 器 模块 内 部 主要 是 下 面 几 个 部 
件 : 与 本 地 MU 对 接 的 接收 和 发 送 队 列 、 Barrier 处 理 
模块 、Collective 加 速 模块 以 及 用 于 其 他 节点 的 过 路 消 


息 的 接收 和 路 由 转发 部 分 。 


ND 内 部 实现 了 针对 MPI Barrier 和 Reduce 等 聚 
合 通信 的 加 速 硬件 模块 ， 使 得 一 些 MPI 流 量 在 这 些 
硬件 中 就 得 到 追踪 和 执行 ， 而 不 需要 上 报到 主 存 然 
后 再 用 CPU 核心 运行 的 代码 来 处 理 。 比 如 一 些 用 于 
追踪 线程 运行 状态 的 计数 器 变量 以 及 用 于 归 约 操作 
时 的 各 种 运算 器 ， 使 得 这 些 操作 可 以 由 这 些 专用 硬 
件 完成 ， 这 样 就 避免 了 采用 软件 操作 带 来 的 代码 执 
行 和 访 存 开销 。 所 以 该 计算 机 使 用 的 MPI 库 底层 的 
MPI 函 数 也 必须 是 经 过 修改 的 ， 能 够 调用 这 些 硬 件 


模块 对 应 的 驱动 程序 所 提供 的 API。 


以 上 介绍 虽然 基于 蓝 色 基因 Q， 但 是 蓝 色 基因 中 
使 用 的 三 个 独立 网 络 的 本 质 和 流程 都 是 类 似 的 。 


9.4.1.5 ”节点 卡 及 整 机 架 布局 


一 个 计算 卡 上 插 的 所 有 CPU/I/O 子 卡通 过 板 载 
PCB 导线 来 互联 。 机 架 内 空间 又 被 划分 两 半 ， 上 下 
各 8 个 计算 卡 。 上 面 的 8 个 计算 卡 之 间 通 过 Midplane 
中 板 上 的 导线 相互 通信 ， 同 样 下 面部 分 的 8 个 计算 卡 
也 通过 中 板 通信 ， 这 两 个 部 分 之 间 以 及 机 架 之 间 就 
必须 通过 单独 的 集线器 用 外 置 线 缆 来 相互 连接 了 ， 
如 图 9-32 所 示 。 整 体 上 所 有 CPU 按 照 3D Torus 结 构 互 
联 ， 但 是 实现 上 一 定 是 使 用 星 形 连接 ， 集 线 器 上 的 
芯片 负责 将 对 应 CPU 的 线路 连通 到 其 他 CPU 的 线路 
上 ， 内 部 形成 一 个 3D Torus 的 结构 ， 如 果 将 这 个 结构 
投影 到 二 维 平面 ， 就 可 以 推测 出 集线器 内 芯片 的 电 
路 布局 方式 了 。 采 用 星 形 连 接 有 利于 布线 和 维护 。 
由 于 采用 电信 号 传输 ， 信 和 号 完整 性 方面 较 差 ， 集 线 
器 内 部 需要 有 电信 号 Repeater 来 中 继 。 每 个 机 架 都 是 
前 后 对 插 的 ， 每 个 机 架 含 32 个 计算 卡 〈32X32 个 计 
算 节点 ) 、8 个 集线器 ， 如 图 9-33 所 示 。 

3D Torus 的 连 线 还 是 比较 复杂 的 。 系 统 提供 了 3 种 
不 同 颜色 的 线 缆 ， 分 别 用 来 连接 Z 方 向 、Y 方 向 和 X 方 
向 ， 如 图 9-34 所 示 ， 具 体 的 连接 方式 我 们 就 不 必 去 深 
究 了 ， 这 个 完全 要 依照 产品 手册 来 部 署 。 


9.4.1.6 ”整体 系统 拓扑 


如 图 9-35 所 示 ， 蓝 色 基因 的 计算 节点 和 IO 节点 机 
柜 是 核心 ， 在 核心 外 围 ， 还 需要 管理 、 控 制 和 维护 计 
算 核心 ， 还 有 很 多 工作 要 做 。 


9.4.1.7 Service Node 


比如 针对 所 有 节点 的 硬件 状态 监控 以 及 控制 ， 这 
个 就 是 个 不 小 的 活 了 。 需 要 用 一 个 叫 作 Service Node 
的 服务 器 来 单独 干 这 个 活 。 其 实 Service Node 是 一 个 
用 两 台 IBM P 小 型 机 组 成 的 双 机 热 备 系 统 ， 它 非常 重 
要 ， 如 果 没 有 了 它 ， 就 相当 于 这 个 系统 没 了 眼睛 ， 但 
是 当前 已 经 在 运行 的 任务 不 受 影响 。 但 是 当前 任务 执 
行 完 之 后 ， 整 个 系统 便 会 无 法 控制 和 使 用 了 。 如 图 
9-35 右 侧 所 示 为 Service Node 实 物 图 ， 也 就 是 两 台 互 为 
备份 的 BM Power 小 型 机 HA (High Availability， 高 可 


图 9-32 ” ”Toms 集线器 (Link Card) М 


用 ) 系统 。 


那么 Service Node 通 过 什么 方式 来 获取 和 控制 所 
有 机 架 内 所 有 节点 的 硬件 状态 信息 ? 那 一 定 要 通过 


某 种 网 络 。 实 际 上 蓝 色 基因 使 


的 就 是 一 个 独立 以 


太 网 来 获取 硬件 状态 信息 的 ， 这 个 以 太 网 称 为 Control 
了 Ethermet。 当 然 ， 这 个 网 络 在 物理 形态 上 略 有 不 同 ， 并 
不 是 想象 中 的 大 家 都 连 根 线 到 交换 机 上 。 具 体 是 这 么 
串 起 来 的 ， 首 先 Service Node 通 过 普通 以 太 网 线 确实 连 
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接 了 一 台大 容量 高 端口 数 的 交换 机 ， 但 是 为 了 节省 布 
线 ， 每 个 节点 卡 并 不 出 网 线 ， 而 是 一 个 机 架 内 的 所 有 
节点 卡 〈 注 意 ， 不 是 节点 ) 和 集 线 板 先 通过 一 种 私有 
硬件 芯片 来 传输 硬件 状态 和 控制 信号 给 同样 插 在 该 机 
架 中 板 上 的 一 个 叫 作 Service Card 的 部 件 ，Service Card 
本 身 也 使 用 这 个 芯片 来 处 理 针对 它 自身 的 硬件 状态 监 
控 和 控制 信号 ; 然后 Service Card 将 整个 机 架 内 部 的 硬 
件 状态 和 控制 信号 打包 到 以 太 网 络 上 ， 用 线 缆 连 接 到 
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外 置 以 太 网 交换 机 上 ， 从 而 与 Service Node 相 互通 信 ， 
这 相当 于 一 个 控制 代理 ， 这 样 节约 了 布线 ， 能 走 中 板 
的 信号 都 走 中 板 。 这 个 专用 芯片 除了 负责 监控 和 控制 
硬件 板 卡 上 的 风扇 、 电 源 、 电 流 等 之 外 ， 还 可 以 控制 
上 文中 描述 的 三 种 网 络 路 由 器 ， 从 而 实现 硬 分 区 。 此 
外 ，Service Node 还 控制 所 有 计算 和 IO 节点 的 启动 、 
软件 安装 、 任 务 执行 等 。 用 于 连接 Service Node 与 所 有 
Service Card 的 网 络 就 是 图 9-35 中 所 示 的 Control Network 
(控制 网 络 ) 。 关 于 Service Card 的 细节 详 见 下 文 。 
Service Node 十 分 重要 ， 下 面 几 节 里 描述 的 过 程 
无 一 不 需 Service Node 参 与 和 控制 。Service Node Е 
运行 的 软件 模块 主要 是 4 大 部 分 : MMCS (Midplane 
Management Control System) 中 板 控制 系统 、System 
Console 控 制 台 界面 、DB2 数 据 库 和 调度 器 。MMCS 通 
过 iDo 芯 片 设备 驱动 通过 以 太 网 直接 与 各 节点 上 的 iDo 
控制 器 打交道 ， 从 而 将 上 层 下 发 的 控制 信号 发 送 给 iDo 
控制 器 ， 可 以 通过 各 种 方式 ， 比 如 脚本 、 控 制 台 及 API 
向 MMCS 服 务 发 送 命令 。System Console 控 制 台 界 面 就 
不 必 多 说 了 ， 是 一 个 基于 Web 的 GUI 界面 ， 控 制 Service 
Node 的 业务 逻辑 及 监控 系统 状态 。DB2 数 据 库 是 关键 
部 件 ， 整 个 系统 的 配置 数据 ， 比 如 资源 分 区 数据 、 用 
户 、 任 务 等 数据 信息 ， 全 部 保存 在 DB2 数 据 库 中 。 调 度 
器 则 负责 整体 系统 资源 和 任务 的 调度 及 负载 均衡 ， 有 很 
多 开源 的 调度 器 可 以 直接 安装 在 Service Node 上 使 用 。 


9.4.1.8 Service Card 


Service Card 是 节点 卡 与 Service Node 通 信 的 关键 
中 介 部 件 。 每 个 机 架 有 两 个 Service Card， 每 个 中 板 


各 一 个 。 当 所 有 节点 尚未 加 电 启动 的 时 候 ，Service 
Card 就 已 经 启动 了 。Service Card 是 怎么 与 机 架 内 的 
节点 卡 相互 连接 的 ? 如 图 9-36 所 示 ， 当 然 是 通过 中 
板 对 接 到 一 起 。 那 么 上 层 协 议 呢 ? 上 层 协 议 其 实 就 
是 以 太 网 。Service Card 上 其 实 集成 了 一 个 24 端 口 的 
百 兆 以 太 网 交换 机 ， 其 中 20 个 以 太 口 与 中 板 对 接 分 
别 连 通 到 16 个 节点 卡 和 4 个 集 线 板 上 ， 另 外 4 个 端口 
被 外 置 ， 接 口 形态 是 RJ45 电 口 。 每 个 节点 卡 和 集 线 
板 上 都 有 一 个 专用 芯片 ， 成 为 iDo Controller。 这 个 
控制 器 内 部 集成 了 一 个 以 太 网 控制 芯片 (通俗 地 说 
就 是 集成 了 网 卡 ) 负责 与 Service Node 通 信 ， 收 发 
Service Node 的 各 种 控制 指令 信号 。 这 些 指令 数据 会 
Жиро Controller 直 接 处 理 ， 比 如 “对 xx 计 算 节 点 加 
电 ” 或 者 “请 告知 xx 风扇 转速 ”，iDo Controller 使 
用 私有 信和 号 协议 来 控制 和 监控 所 在 节点 卡 上 的 所 有 
计算 和 IO 节点 子 卡 。 

观察 图 9-36 可 以 看 到 ，Service Card 外 置 了 5 个 
端口 而 非 4 个 ， 那 么 那个 单独 的 端口 是 怎么 回 事 呢 ? 
原来 Service Card 本 身 也 是 一 个 重要 部 件 ， 当 然 也 
需要 接受 Service Node 的 监控 和 控制 了 ， 也 需要 有 
iDo Controller。 这 单独 的 一 个 以 太 口 后 面 其 实 直 接 
连接 到 Service Card 本 身 的 iDo Controller。 并 且 ， 
系统 内 所 有 的 Service Card 并 不 是 直接 接 入 外 部 以 太 
网 交换 机 ， 而 是 为 了 节省 布线 采用 先 级 联 后 上 联 的 方 
式 ， 如 图 9-37 所 示 。 一 个 Service Card 的 独立 以 太 口 先 
级 联 到 另 一 个 Service Card 的 百 兆 口 ， 然 后 按照 相同 方 
式 级 联 ， 最 后 上 联 到 外 部 交换 机 。 这 其 实 构成 了 一 个 
Service Card 与 Service Node 之 间 通 信 的 一 个 专用 网 络 。 
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图 9-37 Service Card 级 联 示意 图 


节点 卡 和 集 线 卡 与 Service Node 之 间 的 通信 ， 则 
采用 星 形 连接 。 每 个 Service Card 的 一 个 千 兆 口 都 直 
接连 接 到 外 部 交换 机 ， 这 便 形成 了 节点 卡 / 集 线 板 与 
Service Node 之 间 通 信 的 一 个 独立 网 络 。 这 两 个 网 络 
虽然 独立 ， 却 都 使 用 同样 的 外 部 以 太 网 交换 机 不止 
一 台 ) ， 整 体 连接 拓扑 如 图 9-38 所 示 。 
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如 图 9-39 所 示 为 蓝 色 基因 另 一 种 LL 型 号 的 Service 
Card， 外 观 不 太一 样 ， 但 是 原理 都 是 一 样 的 。 区 别 是 
以 太 口 数量 少 了 ， 一 个 端口 用 于 直 连 iDo， 另 一 个 端 
口 用 于 连接 节点 卡 和 集 线 板 ， 这 两 个 口 都 直接 连接 到 
外 部 交换 机 上 。 图 中 右 侧 仔细 观察 还 会 发 现 一 条 特殊 
的 线 绕 ， 这 便 是 “Clock 同 步 ” 线 ， 以 及 图 9-40 左 下 角 
的 “Clock Card”。 


图 9-39 ” 蓝 色 基 因 代 型 号 的 Service Card 


9.4.1.9 时 钟 同 步 


对 于 一 个 上 千 节 点 组 成 的 系统 来 说 ， 节 点 之 间 
的 时 钟 同步 是 个 大 问题 。 如 果 有 些 程序 严重 依赖 
于 时 钟 同 步 ， 那 么 就 有 必要 使 用 对 应 的 手段 了 。 
蓝 色 基因 提供 了 时 钟 同 步 机 制 。 如 图 9-41 所 示 为 时 
钟 同步 卡 ， 整 个 系统 要 同步 时 钟 ， 就 必须 让 一 个 
Service Card 成 为 基准 时 钟 ， 大 家 都 与 其 保持 同步 
即 可 。 该 Service Card 将 时 钟 信号 通过 线 缆 连 接 输 
出 给 时 钟 同步 卡 ， 其 他 机 架 上 的 Service Card 也 使 
用 线 缆 连 接 该 同步 卡 。 但 是 一 张 同步 卡 最 多 可 以 连 
接 10 个 Service Card， 也 就 是 5 个 机 架 ， 如 果 机 架 
很 多 ， 就 需要 多 个 时 钟 同步 卡 级 联 。 可 以 看 到 每 个 


时 钟 同步 卡 右 侧 有 个 开关 ， 其 可 以 用 来 选择 该 同步 
卡 是 否 属于 基准 时 钟 信号 提供 者 ， 也 就 是 是 否 连 接 
了 基准 时 钟 Service Card。 右 下 角 的 线 对 是 用 来 级 
联 到 其 他 同步 卡 的。 具体 级 联 方式 如 图 9-42 所 示 ， 
该 拓扑 属于 三 级 级 联 ，Master 基 准 同步 卡 级 联 到 
Secondary 同 步 卡 ，Secondary 同 步 卡 的 接口 直接 连 
线 到 Service Card (Slave 端 ) ， 用 一 种 星 形 Fanout 
连接 方式 就 可 以 同步 多 个 机 架 上 Service Card 的 时 
钟 ， 也 就 意味 着 Service Card 在 通过 背 板 去 同步 该 
中 板 上 所 连接 的 所 有 节点 的 时 钟 了 。 注 意 ， 该 时 钟 
并 非 用 于 器 件 工作 的 时 钟 频率 ， 而 是 时 间 时 钟 ， 两 
者 不 要 搞 混 。 
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图 9-41 时钟 同步 卡 实物 


图 9-42 ”时 钟 同步 卡 级 联 示意 图 


9.4.1.10 ”系统 启动 


超级 计算 机 到 底 是 怎么 启动 的 ? 是 否 插 上 电 无 须 
干预 自己 就 到 秦 作 响 启动 完成 了 ? 远 非 这 么 简单 。 

我 们 知道 单机 系统 主板 上 存储 了 BIOS ROM 供 
CPU 执行 从 而 一 步 步 加 载 0S， 但 是 超级 计算 机 不 会 
这 么 做 ， 计 算 〈 含 ITO) 节点 子 卡 上 没有 ROM， 也 
没有 本 地 硬盘 ， 所 有 的 Boot ROM 和 OS Image 都 存 
储 在 Service Node 中 。 整 个 系统 启动 过 程 如 下 。 首 先 
Service Node, Service Card 及 控制 网 络 必须 先 启动 ， 
因为 Service Node 必 须 通 过 控制 网 络 来 向 所 有 节点 推 
送 启动 数据 。 控 制 网 络 启动 之 后 ，Service Node 会 通 
过 拓扑 发 现 机 制 自动 发 现 网 络 上 所 连接 的 iDo 控 制 芯 
片 ， 通 过 这 个 芯片 就 可 以 控制 所 有 节点 上 的 硬件 了 。 
然后 ，Service Node 会 控制 对 应 的 节点 加 电 启 动 。 
这 里 又 有 个 顺序 ， 就 是 IO 节点 必须 先 启动 ， 因 为 计 
算 节点 启动 之 后 就 要 与 IO 节点 建立 连接 从 而 读 写 
文件 。 

Service Node 采 用 一 种 野蛮 粗暴 的 方式 来 为 CPU 
提供 启动 时 的 执行 代码 ， 那 就 是 直接 通过 控制 网 络 和 
iDo 控 制 芯片 向 对 应 节点 的 内 存 空间 的 固定 地 址 〈 这 
个 地 址 是 多 少 取决 于 CPU 加 电 之 后 从 哪个 地 址 执行 ? 
开始 写 入 Boot Loader 启 动 代码 ， 然 后 用 信号 控制 解除 
CPU 的 reset 状 态 ，CPU 便 开始 从 这 个 固定 地 址 执行 这 
段 代码 。 这 段 代码 会 用 基于 TCPIP 的 Mailbox 协 议 与 
Service Node 建 立 连接 ， 从 而 将 一 小 段 硬件 驱动 及 初 
始 化 代码 连通 OS Image 从 Service Node 拉 取 到 本 地 内 
存 空 间 。 然 后 Boot Loader 结 束 其 使 命 ，CPU 开 始 执行 
硬件 初始 化 代码 ， 完 毕 之 后 跳 转 到 OS Image 执 行 从 而 
加 载 操作 系统 。 


计算 机 系统 Boot Loader 有 两 种 方式 将 控制 权 交 
给 OS。 一 种 方式 是 Boot Loader 将 OS Image 直 接 加 
载 到 之 前 Boot Loader 占 用 的 内 存 空间 里 ， 因 为 随 着 
Boot Loader 的 执行 ， 之 前 被 其 占用 的 内 存 空间 里 的 
代码 已 经 执行 完毕 ，CPU 不 会 再 访问 这 些 空间 了 ， 
所 以 这 些 空间 可 以 安全 地 用 新 代码 履 盖 掉 ， 这 样 最 
节约 内 存 。 这 种 方式 下 ，Boot Loader 最 终 会 对 CPU 
发 出 reset 信 号 ， 华 丽 地 结束 自己 ， 只 留 下 该 留 的 在 
内 存 里 ， 比 如 系统 配置 信息 表 ， 供 OS 启动 之 后 参 
考 和 使 用 。CPU 被 reset 之 后 ， 依 然 会 从 被 写 死 的 固 
定 内 存 地 址 开始 提取 代码 执行 ， 但 是 此 时 处 在 这 个 
地 址 的 已 经 不 是 Boot Loader 了 , Boot Loader 在 结束 
自己 之 前 ， 已 经 把 OS Image 载 入 了 这 个 地 址 ， 所 以 
CPU 执 行 的 其 实 就 是 OS。OS 启 动 之 初 会 借用 Boot 
Loader 留 下 的 有 用 的 东西 ， 包 括 系统 配置 信息 表 以 
及 各 类 设备 的 驱动 ， 比 如 磁盘 驱动 ( 当然 蓝 色 基因 
我 们 上 文 说 过 不 是 从 磁盘 启动 的 ) 。 因 为 OS 启动 文 
件 是 放 在 磁盘 上 的 ，OS 如 果 不 知道 怎么 与 磁盘 交互 
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的 话 ， 那 就 无 法 自己 启动 自己 了 。 所 以 Boot Гоадег/ 
BIOS 留 下 了 自 带 的 磁盘 驱动 在 内 存 里 ，OS 启 动 时 
候 直接 到 一 个 写 死 的 地 址 调用 对 应 地 址 的 代码 ， 就 
可 以 完成 磁盘 读 写 动作 。 最 后 OS 逐渐 加 载 ， 最 终 会 
加 载 自己 的 完整 的 高 性 能 的 磁盘 驱动 ， 此 时 BIOS 留 
下 的 东西 便 基本 没有 用 处 了 ， 除 了 一 些 与 非常 底层 
硬件 相关 的 代码 供 OS 调 用 之 外 。 上 述 启动 过 程 只 
是 一 个 样 例 。 由 于 Boot Loader 可 以 任意 编写 ， 所 以 
不 必 拘 泥 于 上 述 过 程 设 计 。 比 如 ， 有 些 用 户 将 OS 
Image 保 存 到 外 部 存储 系统 中 ，Boot Loader 依 然 靠 
Service Node 来 推送 载 入 执行 。 但 是 Boot Loder 执 行 
过 程 中 可 以 从 外 部 存储 系统 用 NFS 协 议 将 OS Image 
载 入 到 本 地 内 存 ， 而 非 必须 从 Service Node 拉 取 ， 
这 样 可 以 节省 Service Моде ЕЯ, т Н. А, ГУД 
免 经 过 iDo 芯 片 这 种 不 开放 路 径 来 访问 数据 。 


大 型 机 、 超 级 计算 机 的 Service Node 作 用 之 一 就 
是 提供 OS 镜 像 供 所 有 节点 启动 用 。 蓝 色 基 因 系统 的 
计算 节点 OS 体积 非常 小 ， 因 为 高 度 精简 ， 只 有 64KB 
大 小 。 而 WO 节点 OS 体积 稍 大 ， 有 2MB 左 右 ， 包 含 了 
较为 完整 的 内 核 功能 。 另 外 ， 用 于 所 有 计算 节点 启动 
用 的 OS Image 是 同一 个 。 这 就 产生 一 个 问题 ， 不 同 
的 计算 节点 的 标志 都 是 不 一 样 的 ， 也 可 能 各 种 个 性 化 
配置 ， 比 如 主机 名 之 类 ， 那 么 如 何 将 这 些 配置 导入 ? 
蓝 色 基 因 提 供 了 一 种 叫 作 personality 的 配置 文件 。 
对 于 I/O 节 点， 因为 IO 节点 是 要 对 外 通信 的 ， 所 以 
personality 中 会 包含 IO 节点 需要 被 配置 的 卫 地 址 以 及 
自身 节点 标识 、 有 哪些 计算 节点 被 配置 与 自己 组 队 、 
这 些 计 算 节点 在 3D Torus 网 络 中 的 XYZ 坐 标 信息 以 及 
到 这 些 计 算 节点 的 路 由 信息 等 多 种 信息 。 对 于 计算 节 
点 ， 其 只 与 1O 节 点 通过 Collective 网 络 通信 ， 所 以 不 
需要 配置 耻 ， 其 他 个 性 化 信息 与 IO 节点 类 似 。 通 过 读 
取 personality 配 置 文件 ， 各 个 节点 便 可 以 完成 自身 的 
个 性 化 配置 ， 当 然 personality 配 置 文件 最 终 是 由 系统 
管理 员 去 编写 的 。 

IO 节点 要 先 于 计算 节点 启动 ， 计 算 节点 启动 之 
后 会 去 主动 连接 自己 团队 中 的 IO 节点 ， 如 果 连 不 上 
IO 节点 ， 则 会 出 错 。IO 节 点 启动 之 后 ， 会 主动 使 用 
NFS 协 议 从 外 部 存储 系统 中 挂 载 对 应 的 目录 到 本 地 
VFS 路 径 中 ， 从 而 可 以 访问 外 部 存储 系统 存 取 文件 。 
图 9-35 中 所 示 的 “Functional 10GB Ethernet” (Æ 
于 连接 IO 节点 与 外 部 存储 系统 的 。Service Node 也 通 
过 这 个 网 络 连接 存储 系统 ， 但 是 其 目的 是 为 了 监控 和 
控制 ， 并 非 读 写 数据 。 


9.4.1.11 软件 安装 与 用 户 认 证 


蓝 色 基因 由 于 OS 内 核 高 度 精简 ， 所 以 做 事 方法 
就 只 能 简单 粗暴 了 ， 粗 暴 到 不 可 想象 。 如 果 需 要 安装 
一 些 必 需 的 软件 的 话 ， 由 于 节点 都 没有 本 地 磁盘 ， 
系统 会 直接 用 一 个 Ramdisk Image 来 虚拟 成 一 个 块 设 


_____ 1022 те Пишите КУ ом ОД 


备 。 该 块 设备 上 格式 化 了 一 个 文件 系统 ， 并 被 挂 载 到 
某 路 径 下 面 。 当 需要 安装 新 软件 时 ， 不 能 在 节点 OS 
里 用 命令 安装 ， 而 必须 在 系统 外 将 软件 装 好 到 这 个 
Ramdisk Image 中 ， 然 后 重新 载 入 这 个 Ramdisk， 需 要 
重启 节点 。 

用 户 账户 信息 保存 在 Service Node 中 ，Service 
Node 上 运行 了 NIS 协 议 〈 类 似 于 Windows 下 的 AD 域 所 
使 用 的 认证 协议 ) 并 保存 了 所 有 用 户 账户 信息 。LO 
节点 通过 NIS 来 做 用 户 认证 ， 计 算 节点 位 于 最 核心 ， 
其 根本 不 管用 户 这 一 层 ， 也 根本 不 提供 用 户 登录 的 功 
能 ， 它 只 管 计算 。 


9.4.1.12 ”状态 监控 


同样 ， 计 算 节点 被 隐藏 在 后 端 ， 计 算 节点 OS 运行 
时 产生 的 各 种 日 志 ， 会 被 推送 到 IO 节点 上 去 ， 然 后 IO 
节点 通过 控制 网 络 与 Service Node 通 信 ， 从 而 做 到 整个 
系统 的 状态 监控 。 此 外 ， 对 应 底层 硬件 的 状态 监控 比 
如 风扇 转速 、 电 压 等 ，Service Node 直 接 通过 每 个 节 
点 上 的 iDo 芯 片 就 可 以 获取 了 ， 不 需要 经 过 节点 上 的 
OS 干预 。 


9.4.1.13 ”计算 任务 的 执行 


一 个 计算 任务 的 执行 需要 占用 一 批 计算 和 IL/O 资 
源 ， 所 以 用 户 会 预先 申请 该 任务 所 需要 的 资源 配置 ， 
然后 提交 到 Service Node, Service Node 会 选择 对 应 
数量 的 节点 ， 通 过 控制 网 络 向 节点 上 的 网 络 路 由 器 
发 送 控制 信号 ， 将 它们 形成 一 个 硬 分 区 ( 见 第 6 章 相 
关内 容 描 述 ) ， 这 个 硬 分 区 就 好 比 一 个 独立 的 系统 
一 样 。 随 后 ，Service Node 会 控制 UO 节点 将 程序 通过 
Collective 网 络 派发 到 计算 节点 执行 。 在 任务 执行 过 程 
中 ， 计 算 节 点 之 间 通 过 3D Torus 网 络 执行 MPI 点 对 点 
通信 ， 如 果 需 要 文件 IO 比如 存储 临时 数据 等 ， 则 通 


过 Collective 网 络 将 IO 请 求 发 送 给 IO 节点 ，IO 节 点 再 
通过 NFS 访 问 外 部 的 存储 系统 。 


9.4.1.14 ”操作 系统 


计算 节点 的 操作 系统 是 一 个 定制 化 的 高 度 精简 的 
类 UNIX 内 核 ， 称 为 CNK (Compute Node Kernel) , 
其 包括 一 些 基 本 的 系统 调用 以 及 针对 蓝 色 基因 硬件 
优化 过 的 其 他 模块 。 图 9-43、 图 9-44 和 图 9-45 给 出 了 
CNK 的 示意 图 。CNK 除 了 基本 的 操作 系统 功能 之 外 ， 
还 集成 了 MPI、OpenMP 等 并 行 计 算 常用 的 框架 ， 应 
用 程序 可 以 调用 这 些 框架 实现 并 行 计算 的 功能 ， 而 
且 基 于 这 些 框架 开发 的 应 用 是 可 移植 的 。 除 了 MPI 和 
OpenMP 这 两 种 常用 的 框架 之 外 ，CNK 还 集成 了 一 些 
诸如 ARMCI、Charm++ 和 Global Array 等 冷门 并 行 计 
算 库 ， 这 三 个 库 致力 于 将 分 布 式 的 资源 虚拟 整合 起 来 
为 应 用 提供 一 个 统一 的 访问 视图 。 另 外 ，CNK 也 提 
供 了 更 底层 的 API， 比 如 应 用 可 以 直接 调用 到 DCMF 
(Deep Computing Messaging Framework) 层 ， 这 一 层 
其 实 是 将 底层 的 网 络 DMA 层 封装 得 更 易 使 用 ， 但 是 
基于 这 一 层 开发 的 应 用 就 不 可 移植 了 ， 因 为 这 一 层 是 
蓝 色 基因 特有 的 。 应 用 也 可 以 直接 调用 到 更 底层 ， 也 
就 是 图 中 的 System Program Interface， 这 一 层 可 以 直 
接 高 效 使 用 DMA 机 制 在 节点 间 互 传 数 据 ， 但 是 应 用 
开发 难度 也 提高 了 。 刚 才 这 些 组 件 其 实 都 运行 在 用 户 
空间 ， 只 是 对 底层 逻辑 的 封装 。 

再 来 看 看 内 核 层 。 内 核 层 提供 了 一 些 常用 的 系统 
调用 ， 比 如 文件 WO、Socket 等 ， 针 对 文件 /JO、MPI， 
CNK 底 层 会 将 请 求 转发 给 IO 节点 上 运行 的 一 个 叫 作 
CIOD 的 用 户 态 程序 模块 〈 详 见 下 文 ) 。 内 核 层 还 包 
含 了 各 种 网 络 器 件 比如 三 个 网 络 的 网 络 控制 器 的 驱动 
程序 ， 它 们 三 个 是 计算 节点 唯一 对 外 的 出 口 。 


图 9-43 


CNK 模 块 框图 1 


жов “万 箭 齐 发 一 一 加 速 计算 与 超级 计算 机 [PR 和 


Source: IBM 


图 9-44 ”CNK 模 块 框图 2 
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图 9-45 ”CNK 模 块 框图 3 


位 于 CNK 最 底层 的 Common Node Services 其 实 相 
当 于 传统 计算 机 中 的 BIOS 层 。 这 一 层 与 最 底层 的 硬件 
打交道 ， 负 责 初始 化 各 种 硬件 、 引 导 CNK 启 动 ， 以 及 
在 CNK 启 动 之 后 ， 响 应 从 Service Node 经 过 控制 网 络 
及 iDo 控 制 器 发 送 过 来 的 一 些 指令 ， 比 如 收集 一 些 特 
殊 的 系统 日 志 。 

IO 节点 上 的 操作 系统 则 是 一 个 较为 完整 的 OS 
内 核 了 ， 如 图 9-46 所 示 。 其 一 个 特点 是 不 使 用 分 页 
机 制 ， 因 为 其 属于 定制 化 的 专用 系统 ， 为 了 提高 效 
率 ， 抛 弃 了 灵活 性 。 底 层 包含 万 兆 以 太 网 驱动 ， 支 
持 TCP Checksum Ofoad 功 能 ， 也 就 是 其 TCPIP 层 程 
序 支持 把 对 数据 的 校 验 计 算 下 放 到 以 太 网 芯片 里 去 
执行 ， 节 约 了 CPU 资 源 ， 同 时 也 支持 Jumbo Frame 也 
就 是 9KB 的 巨型 以 太 网 帧 。 支 持 4 种 文件 系统 客户 端 
用 于 连接 外 部 独立 的 存储 系统 ， 包 括 GPFS、PVFS、 
NFS、Lustre， 除 了 NFS 之 外 ， 其 他 三 种 客户 端 都 
是 支持 并 行 访问 的 。 关 于 分 布 式 文件 系统 的 分 类 和 
细节 大 家 可 以 阅读 冬瓜 哥 的 《大 话 存储 终极 版 》 及 
《大 话 存储 后 传 》。 


图 9-46 IO 节点 的 OS 内 核 框架 


LO 节点 OS 里 的 一 个 最 重要 的 模块 是 CIOD 模 块 ， 
ÆRA “Control and VO Daemon”。 正 如 其 名 ， 这 个 
模块 主要 负责 响应 和 执行 计算 节点 通过 内 部 Collective 
网 络 发 送 的 文件 LO 和 网 络 Socket 连 接 请 求 及 数据 ， 
这 是 其 作为 “IO Daemon” 的 责任 。 另 外 ，Service 
Node 上 的 MMCS 程 序 模块 会 通过 Functional 10Gb 
Ethernet 与 1O 节 点 的 CIOD 模 块 通过 TCPIP Socket 建 立 
两 条 连接 。 连 接 上 承载 的 上 层 协 议 分 别 是 CioStream 
和 DataStream 这 两 种 私有 协议 ， 它 们 用 来 控制 计算 任 
务 的 装载 和 执行 《CIOD 模 块 收 到 Service Node 的 信号 
之 后 会 去 控制 计算 节点 完成 相应 动作 ) ， 以 及 用 于 
CIOD 模 块 向 Service Node 模 块 报告 运行 状态 和 日 志 及 
错误 消息 等 。 此 外 ， 其 他 IO 节点 上 的 工具 比如 Debug 
工具 ， 也 会 使 用 CioDebug 协 议 来 连接 CIOD 模 块 从 而 
执行 Debug 任 务 。 综 上 ，CIOD 与 三 个 模块 交互 ， 一 
个 是 计算 节点 ， 另 一 个 是 Service Node 上 的 MMCS 模 
块 ， 最 后 是 其 他 LO 节点 上 的 Debug 工 具 ， 如 图 9-47 左 
侧 所 示 。 图 9-47 右 侧 给 出 了 CIOD 模 块 内 部 的 架构 。 
CIOD 为 每 个 计算 节点 创建 对 应 的 指令 和 数据 缓存 ， 
以 及 对 应 的 代理 线程 。 代 理 线程 接受 CNK 的 请 求 ， 然 
后 通过 本 地 系统 调用 访问 对 应 的 资源 ， 比 如 GPFS 目 
录 下 某 个 文件 。 
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CloDebug 
Collective 
Network 


Functional Ethernet 


9-47 CIOD 模 块 的 生态 关系 及 内 部 架构 
9.4.1.15 Login Node 


Login Node 物 理 上 是 一 组 BM 刀片 服务 器 ， 如 图 
9-48 所 示 。 其 作用 是 提供 购买 超级 计算 服务 的 用 户 合 
录 、 创 建 和 编译 自己 的 应 用 程序 ， 还 负责 提交 任务 
执行 。Login Node 对 内 连接 着 Service Node 用 来 提交 
任务 ， 对 外 连接 着 外 网 用 于 外 部 用 户 登 录 ， 如 图 9-49 
所 示 。 


9-48 Login Node 是 一 组 刀片 服务 器 图 9-49 Login Node 登 录 之 后 的 界面 


d taa 当 于 这 台 计算 机 的 CPU，IO 节 点 集群 相当 于 这 台 计算 
蓝 色 基 因 的 存储 系统 分 为 两 部 分 。 一 部 分 是 外 ”机 的 IO 控制 器 ， 各 种 互联 网 络 相当 于 这 人 台 计 算 机 的 

置 独立 的 SAN 存 储 系统 ， 使 用 IBM DS5000 型 号 ， 系统 总 线 ，Service Node 相 当 于 系统 的 BIOS，Frontend 

这 个 存储 系统 专门 为 Service Node 以 及 Login Node Node 相当 于 系统 的 界面 ，File Servers 相 当 于 硬盘 。 计 

提供 存储 空间 ， 满 配 系统 大 概 需要 几 十 TB 的 空间 。 算 机 系统 的 软 硬 件 的 本 质 都 是 同 源 的 。 

因为 Service Node 上 运行 着 DB2 数 据 库 ， 所 以 适合 

使 用 块 设备 作为 存储 方式 。 另 一 部 分 是 外 置 独立 的 “9.4.2 ”圣地亚哥 Gordon 

分 布 式 文件 系统 比如 Lustre， 大 概 需 要 几 PB 的 存储 

空间 。 美国 圣地 亚 哥 超 算 中 心 的 Gordon 超 级 计算 机 的 模 
其 实 你 可 能 会 感觉 到 ， 整 个 系统 就 是 一 台 逻 辑 上 ” 块 互联 使 用 的 就 是 基于 Infiniband 的 3D Torus 和 矩阵， 如 

的 超级 计算 机 (本 来 就 这 么 叫 的 ) 。 计 算 核心 集群 相 。 ”图 9-50 所 示 。 
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SDSC Gordon 4х4х4 
InfiniBand 30 Torus 


在 Gordon 的 3D Torus 中 ， 每 个 交叉 点 就 是 一 台 36 
口 卫 交换 机 ， 每 端口 40GB/s 速 率 。 其 中 16 个 计算 卡 和 
2 个 IO 卡 共 18 个 节点 ， 每 个 节点 都 使 用 一 个 IB 网 络 控 
制 芯 片 通过 一 路 40GB IB 链 路 连接 到 IB 交 换 机 ， 然 后 
剩 下 的 18 个 IB 端 口 ， 每 3 个 一 组 ， 共 分 6 组 ， 刚 好 作为 
3D Torus 中 与 其 他 6 个 方向 的 邻居 交叉 点 相连 ， 每 个 
交叉 点 上 同样 也 都 是 一 台 36 口 JB 交 换 机 。 可 以 与 蓝 色 
基因 的 Torus 实 现 模式 对 比 一 下 ，Gordon 没 有 把 路 由 
器 ( 即 IB 交 换 机 ， 这 里 交换 和 路 由 其 实 都 是 一 个 意思 
了 ， 交 换 属 于 一 种 路 由 ， 路 由 也 属于 一 种 交换 ， 请 不 
要 生 搬 硬 套 概念 ) 集成 到 每 个 CPU 内 部 ， 而 是 拿 出 来 
外 置 ， 但 是 每 个 路 由 器 端口 数量 也 随 着 增多 了 ， 这 相 
当 于 用 一 个 网 格 交叉 点 接 入 了 更 多 节点 ， 趋 向 于 集中 
式 路 由 ， 而 蓝 色 基因 里 每 个 路 由 器 只 有 7 个 口 ， 一 个 
内 部 接口 接 入 CPU 内 部 总 线 ，6 个 外 部 接口 通过 线 费 
与 其 他 6 个 邻居 互联 ， 这 属于 一 种 更 加 小 粒度 的 分 布 
式 路 由 了 。 顺 便 看 一 下 本 段 文字 生成 时 Gordon 机 器 资 
源 利用 率 吧 ， 如 图 9-51 所 示 。 


with I/O storage 


当 理解 了 底层 架构 和 原理 之 后 ， 你 还 会 被 超级 计 
算 机 《〈 如 图 9-52 所 示 ) 这 5 个 字 震 住 么 ? 


9.4.3 Fujitsu PrimeHPC FX10 


富士 通 1977 年 开始 做 大 型 机 ， 也 算 主 机 领域 的 元 
老 了 。FX10 超 级 计算 机 最 大 支持 1024 个 Rack、98304 
颗 CPU， 其 基本 架构 与 蓝 色 基因 的 类 似 ， 这 里 不 多 
说 。 这 里 主要 介绍 其 一 些 特色 技术 ， 如 图 9-53 所 示 。 


9.4.3.1 SPARC64 IXfx CPU 


这 款 CPU 是 富士 通 自己 在 SPARK64 VITfx 基 础 上 
定制 的 ， 增 加 了 一 倍 的 核心 数量 ， 达 到 16 核 心 ， 拥 
有 12MB 共 享 L2 缓 存 ， 集 成 了 内 存 控制 器 ， 具 体 规 格 
如 图 9-54 所 示 。 此 外 ， 它 还 集成 了 硬件 Barrier 加 速 单 
元 ， 该 单元 可 以 节省 线程 同步 所 耗费 的 开销 。 另 外 ， 
富士 通 提供 的 自动 化 编译 器 可 以 直接 将 串 行程 序 编译 
成 并 行程 序 ， 保 持 对 开发 者 透明 ， 还 能 最 大 程度 利用 
多 核心 的 并 行 性 。 


Total Nodes 894 
Total Cores 14784 
Total Jobs 364 
Total Ranks 13347 


Total Load 11318.6 
673807 


322279 


Total SUs Running 
Total SUs Queued 


Current | мах ` 


Node Availability 892 | 696 [99.38 

CPU Utilization | 11318-6 | 14784 | 76.6% 
13347 | 14784 | 90.3% 
13392 | 14848 [90.2% 
13392 | 14752 | 90.8% 
7.1% 


соке Utilization 


Slot Utilization 


Avail Slot Util 


Mem Utilization 4.1тв | 58.4тв 


19-51 Gordon 超级 计算 机 资源 利用 率 
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99-52 ”超级 计算 机 机 房 


64-а Maximum 
configuration configuration 
Number of racks 64 1,024 
Number of compute nodes 6,144 98,304 
Peak performance 1.4 petaflops 23 petaflops 
Memory capacity 384TB 6.0 PB 
Memory bandwidth 522 ТВ 8.3 РВ/5 
Interconnect bandwidth 245 TB/s 3.9 РВ/5 
Bisection bandwidth 7.6 ТВ/5 30.7 ТВ/5 
Number of О nodes 384 6,144 
Number of expansion slots 1,536 24,576 
Power consumption 1.4 MW 23 MW 


图 9-53 PrimeHPC FX10 机 架 及 规格 表 


Number of cores 
Shared 12 cache 
Operating frequency 
Peak performance 
Memory bandwidth 
Ptocess technology 
Die size 

Number of transistors 


Number of signals 


Fe 


Power consumption 


16 

12 МВ 

1.848 GHz 

236 Gflops 

85 GB/s [peak value) 

40 пт CMOS 

21.9x22.1 mm 
Approximately 1.87 billion 
1,442 

110 W (process condition: TYP) 


Core 0 | 


Core 1 | 


Core 15 


图 9-54 SPARK64 IXfx CPU 框图 、 规 格 表 及 硬件 Barrier 示 意图 


9.4.3.2 


水 冷 一 般 在 大 型 机 这 种 烧 钱 的 机 器 上 才 常 用 。 
看 来 Fujitsu 下 了 血本 ， 高 端 路 线 走 到 底 ， 卖 一 套 就 要 
回 本 的 节奏 。 当 然 ， 水 冷 只 是 选 配 ， 可 配 风 冷 ， 但 是 
水 冷 能 够 比 风 冷 将 系统 环境 温度 多 下 降 10 一 20 度 。 
图 9-55 右 侧 所 示 为 主板 ， 主 板 右 侧 4 个 散热 片 下 为 4 颗 
CPU， 左 侧 紧 直 排列 的 4 颗 芯片 为 互联 芯片 ， 其 内 部 
集成 了 PCIE 控 制 器 及 Torus 控 制 器 ， 详 见 下 文 。 


9.4.3.3 Tofu 六 维 网 络 互联 拓扑 


研究 超级 计算 机 必 少 不 了 研究 其 互联 网 络 。FX10 
的 互联 网 络 称 为 Torus Fusion， 融 合 Torus， 取 前 两 个 
字母 组 合 就 是 ToFu， 也 就 是 豆腐 ， 但 是 其 内 部 真 不 像 
是 一 整 块 豆 腐 ， 里 面 分 了 很 多 细 粒 度 。ToFu 是 一 个 6D 
Torus， 上 文中 了 解 了 5D Torus， 其 实 6D 无 非 就 是 将 拓 
扑 进行 多 个 维度 上 的 连接 以 及 多 次 封装 。 如 图 9-56 所 


水 冷 主板 


示 为 一 个 大 3D Torus 拓 扑 ， 这 个 3D Torus 中 的 每 个 节 
点 又 是 由 多 个 节点 封装 而 成 的 ， 右 侧 给 出 了 放大 图 。 
之 所 以 戏称 其 为 豆腐 酒 网 络 ， 就 是 因为 其 节点 粒度 非 
常 细 ， 细 到 一 个 CPU 就 是 一 个 节点 ， 这 在 其 他 超级 计 
算 机 网 络 中 是 没有 的 。 

仔细 观察 右 侧 放大 图 会 发 现 ，4 个 CPU 组 成 一 个 方 
形 平面 ， 也 就 是 一 块 主板 〈 刚 好 有 4 颗 CPU) ， 然 后 三 
块 主板 上 中 下 平行 放置 ， 在 图 示 的 A 方 向 维度 上 有 6 条 
楞 ，C 方 向 维度 上 也 有 6 条 楞 ，B 方 向 维度 比较 特别 ， 
其 形成 了 4 个 三 角 平 面 ， 共 12 条 楞 。A、B、C 是 三 个 不 
同 的 方向 /维度 ，A 和 (C 方 向 将 同一 块 主板 上 的 4 颗 CPU 
在 两 个 方向 上 连接 起 来 ，B 方 向 则 将 三 块 主板 四 个 角 擒 
起 来 ， 便 形成 了 由 三 块 主板 拼合 而 成 的 一 个 Cube， 这 
个 Cube 再 作为 一 个 单元 ， 参 与 到 第 二 层 世 界 的 建立 当 
中 ， 也 就 是 X、Y 和 Z 的 世界 。 图 中 的 每 个 球 泡 中 容纳 
一 个 Cube， 多 个 球 泡 之 间 再 形成 3D Torus 拓 扑 。 
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一 个 Cube 被 称 为 一 个 Node Group， 是 计算 任务 分 ” 链 路 互联 在 所 有 超 算 网 络 中 也 是 首屈一指 的 ， 下 了 血 
配 的 最 小 单位 。 每 个 CPU 除了 参与 到 自身 世界 的 ABC Ж! 如 图 9-56 右 下 角 所 示 ， 本 质 上 每 个 Node Group 等 
这 三 个 维度 中 之 外 ， 还 参与 到 第 二 层 世 界 的 XYZ 轴 — 价 于 一 个 2D Torus。 图 9-57 更 清晰 地 描绘 出 了 互联 拓 


上 。 对 每 个 CPU 节 点 来 讲 ，A 和 C〔 连 接 所 在 主板 的 。 扑 内 在 的 关系 。 
另外 两 颗 CPU) 各 耗费 了 一 条 链 路 ，B 〈 连 接 其 他 两 反观 6D Torus，3D Torus 中 的 每 个 点 都 是 一 个 全 
块 主板 相同 位 置 的 各 一 颗 CPU) 因为 成 环 所 以 耗费 2 ”新 的 3D 世 界 ， 根 据 上 述 推导 结论 ， 这 可 不 就 是 六 维 
条 链 路 ， 这 一 共 是 4 条 链 路 。 每 个 CPU 节点 在 第 二 层 。 空间 么 ? CPU 是 点 ，2 个 CPU 组 成 线 ， 多 个 CPU 组 成 
世界 的 XX、Y 和 Z 轴 方向 (包括 上 下 左右 前 后 6 个 子 方 System Board 主 板 面 ， 三 个 主板 再 组 成 体 ， 体 再 作 
H) 上 各 自 再 连接 一 条 链 路 到 其 他 Node Group 方块 中 ”为 第 二 层 世 界 中 的 点 ， 然 后 在 图 示 Z 轴 上 组 成 线 (机 
与 自己 位 置 相同 的 那个 CPU Node， 这 就 是 6 条 链 路 。 架 ) ， 多 排 机 架 通 过 图 示 X 轴 和 Y 轴 组 成 面 和 体 ， 最 
每 个 CPU 共有 10 条 链 路 连接 到 网 络 中 ， 这 么 高 密度 的 。 终 形 成 六 维 空间 。 
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~ | Я FE 
P7 МАТ 
"ер ч | | 
Node Group Unit x 
Node Group 3D connection 
图 9-57 三 维 空间 堆 又 成 六 维 空间 


如 图 9-58 所 示 为 Tofu 网 络 路 由 规则 ， 即 B、C、 
A、X、Y、Z、A、C、B 顺 序 。 同 一 主板 内 CPU 之 间 
路 由 不 需要 走 B 轴 ， 直 接 先 C 后 A 到 目的 CPU; Node 
Group 内 部 跨 主板 路 由 则 需要 走 B， 然 后 C、A 到 目的 
CPU; 跨 Node Group 就 要 升 维 ， 进 入 第 二 层 世 界 ， 
按照 顺序 走 先 X、 后 Y、 后 Z 然 后 路 由 到 目标 Node 
Group， 降 维 ， 然 后 走 A、C、B 路 由 到 目标 CPU。 如 
果 遇 到 链 路 或 者 节点 本 身 故 障 ， 则 路 由 协议 会 自动 绕 
路 寻找 其 他 路 径 。 

按照 图 9-56 所 示 拓 扑 ， 多 个 Node Group 方 格 在 Z 
轴 方 向 上 组 成 机 架 ，X 轴 和 Y 轴 相当 于 跨 机 柜 将 多 个 
Node Group 串 起 来 ，Z 轴 和 B 轴 则 是 跨 主板 来 把 同一 个 
机 架 中 多 个 主板 串 起 来 ， 最 后 A 和 C 将 同一 块 主板 内 
部 的 4 颗 CPU 串 起 来 。 图 9-58 最 右 侧 所 示 为 X 轴 方向 上 
的 链 路 ， 由 于 每 个 节点 都 需要 在 一 个 方向 上 连接 到 另 
一 个 相同 位 置 节点 ， 所 以 这 里 一 共有 12 条 链 路 。 由 于 
图 示 的 两 个 Node Group 方 格 属于 不 同 机 架 ， 这 12 条 链 
路 不 能 被 焊 在 中 板 上 ， 必 须 用 外 置 线 缆 ， 然 而 其 中 一 


条 链 路 又 因为 是 并 行 链 路 ， 需 要 多 根 导线 捆绑 ， 所 以 
最 终 这 条 线 缆 会 比较 粗 ， 而 且 造 价 也 非常 昂贵 。 最 终 
每 个 Node Group 会 出 4 条 这 种 线 缆 连 接 到 其 他 机 架 上 
对 应 的 接口 ，Z 轴 上 的 两 个 方向 由 于 用 于 机 架 内 部 与 
其 他 Node Group 连接 ， 所 以 走 中 板 布线 即 可 。 


9.4.3.4 1CC 互 联 芯片 


通过 任何 网 络 发 送 数据 ， 都 需要 由 对 应 的 网 络 控 
制 器 来 控制 ， 有 些 被 集成 到 了 CPU 内 部 ， 而 有 些 则 没 
有 。 用 于 FX10 计 算 机 的 ICC (Interconnection Chip) 
互联 芯片 就 是 一 款 外 置 的 网 络 控制 器 + 交换 机 ， 如 图 
9-59 所 示 。 每 颗 CPU 都 连接 到 一 片 ITCC 芯 片 ，ICC 芯 片 
通过 Processor Bus 连 接 到 CPU。ICC 芯 片 中 包含 了 4 个 
TNI 控 制 器 ， 也 就 是 Tofu Network Interface， 其 角色 就 
是 网 络 控制 器 。 这 4 个 网 络 控制 器 通过 Crossbar 接 到 一 
个 TNR， 也 就 是 Tofu Network Router， 其 角色 相当 于 
一 个 网 络 交 换 机 。 


Number of concurrent 4 transmission + 4 reception 
connections 

Operating frequency 312.5 MHz 

Switching capacity 100 68/5 

(Link speed x number of 5 GB/s x Bidirectional x 10 ports 
ports) 

Process technology 65 пт MOS 

Die size 18.2 х 18.1 mm 

Number о logic gates 48 million gates 

Number of SRAM cells 12 million bits 


Differential /О signals 


Tofu link 6.25 Gbps, 80 lanes 
Processor bus 6.25 Gbps, 32 lanes 
РО Express 5 Gbps, 16 lanes 


El9-s9 ICC 互 联 芯片 


TNR 共 有 10 条 链 路 ， 其 中 2 条 分 别 与 位 于 本 主板 
上 另 2 颗 CPU 附 属 的 ICC 芯 片 对 应 链 路 对 接 ， 也 就 是 A 
和 C 方 向 ， 再 拿 出 ?条 链 路 与 另外 两 块 主板 上 相同 位 置 
的 CPU 所 附属 的 ICC 芯 片 对 应 链 路 对 接 ， 再 拿 出 6 条 与 
其 他 Node Group 方 格 中 相同 位 置 的 CPU 在 XYZ 轴 6 个 
方向 上 用 外 置 线 缆 完成 对 接 。 

TNI 后 端 与 CPU 通 过 私有 高 速 总 线 连接 ， 前 端 则 
与 TINR 之 间 通 过 私有 高 速 Crossbar 和 矩阵 相连 ，TNI 可 
以 向 任意 链 路 发 送 数据 ， 也 可 以 从 任意 链 路 接收 数 
据 。ICC 芯 片 不 仅 是 用 来 为 其 所 连接 的 CPU 提供 数据 
收发 服务 的 ， 它 更 是 一 个 过 路 中 转 站 。 在 整个 Torus 
网 络 中 ， 每 个 节点 都 充当 消息 转发 的 角色 ，TNR 维 护 
一 个 路 由 表 ， 按 照 固 定 规则 来 路 由 数据 包 ， 消 息 从 
Node Group 方 格 内 部 按照 B、C、A 方 向 传 出 到 第 二 
层 3D Torus， 然 后 再 按照 X、Y、2 方 向 顺序 传递 到 目 
Моде Group 方 格 ， 进 入 方 格 后 再 按照 A、C、B 顺 
序 路 由 到 目的 节点 。TNR 自行 路 由 数据 包 ， 而 不 惊动 
TNI 以 及 TNI 后 面 的 CPU， 只 有 那些 目的 地 址 是 本 节 
点 的 数据 ，TNR 才 会 收入 并 且 传 递 给 TNI 继 而 传递 给 
CPU。TNR 采 用 的 是 低 时 延 转发 技术 ， 而 非 存 储 转发 
技术 ， 也 就 是 当 一 个 数据 包 还 未 被 接收 全 的 时 候 ， 
TNR 就 已 经 开始 根据 包头 中 的 目的 地 址 译 码 并 且 将 内 
部 的 Crossbar 之 类 交换 矩阵 的 电路 连通 从 而 向 目标 发 
送 数据 了 ， 最 终 效 果 就 是 数据 包 边 接收 着 ， 另 一 头 就 
立即 发 送出 去 了 ， 这 样 时 延 非常 低 。 另 外 ， 在 软件 层 
面 ， FX10 计 算 机 OS 内 核 中 支持 RDMA over Tofu， 这 
进一步 降低 了 时 延 。 

ICC 芯 片 中 的 PCIE Express 控 制 器 对 于 计算 节点 来 
讲 没有 用 ， 只 有 LO 节点 才 使 用 它 ，IO 节 点 上 会 插 有 
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很 多 PCIE 设 备 ， 计 算 节点 与 IO 节点 之 间 的 数据 也 是 
通过 Tofu 网 络 传输 的 。 由 于 存在 4 个 TNI 控 制 器 ， 所 以 
本 地 CPU 可 以 同时 执行 4 路 数据 接收 /发 送 ， 并 且 支 持 
错误 重 传 。 

TBI 为 Tofu Barrier Interface， 这 个 东西 相当 于 一 个 
前 置 的 针对 MPI Collective/Barrier/Reduce/Broadcase 这 
些 操作 的 专用 处 理 器 ， 这 几 种 操作 在 MPI 框 架 下 很 容 
易 出 现 ， 如 果 这 些 消息 使 用 软件 来 处 理 ， 则 需要 耗费 
不 少 CPU 资源 而 且 时 延 很 大 。TBI 则 能 够 将 这 些 消 息 
的 处 理 大 部 分 逻辑 从 主 CPU 中 外 载 到 自己 这 执行 ， 比 
如 Reduce 操 作 中 的 针对 64 位 整数 的 AND、OR、XOR、 
MAX、SUM 操 作 ， 以 及 对 浮 点 数 的 SUM 操 作 。 前 置 
MPI 消 息 专用 处 理 器 有 降低 通信 时 延 之 功效 。 

图 9-60 所 示 为 富士 通 上 一 代 “K”【〔 京 ) 超级 计 
算 机 所 使 用 的 CPU 与 1CC， 其 架构 与 FX10 类 似 ,不 同 
之 处 就 是 CPU 不 一 样 ，FX10 升 级 了 SPARK64 VIIfx 为 
IXfx， 核 心 数量 增加 一 倍 。 

最 适合 超级 计算 机 的 程序 是 那些 可 以 冲锋 并 行 
化 的 程序 。 比 如 每 个 人 处 理 一 部 分 数据 ， 然 后 汇总 结 
果 ， 这 类 似 于 Hadoop 集 群 ， 只 不 过 Hadoop 以 处 理 数 
据 为 主 。 比 如 从 1 PB 数据 中 找 出 某 某 账 号 在 哪 天 几 点 
买 过 什么 东西 ， 然 后 用 各 种 手段 向 其 推送 广告 ， 这 个 
过 程 多 数 情况 下 根本 没什么 计算 量 ， 全 是 在 扫描 数 
据 。 所 以 它 更 偏重 属于 分 布 式 存储 集群 ， 追 求 的 是 吞 
吐 量 而 不 是 时 延 。 

而 超级 计算 机 〈 如 图 9-61 所 示 ) 应 对 的 是 那些 计 
算 超 级 复杂 的 业务 。 比 如 模拟 分 析 一 个 蛋白 质 分 子 构 
象 作用 力 原理 从 而 人 工 设计 蛋白 质 分子 机 器 ， 成 千 上 
万 的 原子 ， 加 上 几 十 种 不 同 原子 的 组 合 ， 再 加 上 几 种 
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图 9-61 MIRA、TITAN、JAGUAR、TERA、K 超 级 计算 机 


化 学 价 、 几 种 原子 力 ， 这 几 种 组 合 会 产生 大 量 计算 需 
求 。 如 果 拿 PC 来 计算 ， 可 能 要 算 一 年 ， 中 途 或 许 还 
内 存 溢 出 了 ， 但 是 如 果 将 其 并 行 化 ， 分 摊 到 一 千 个 核 
心 上 ， 可 能 半天 就 算 完 了 ， 这 种 场景 下 对 互联 时 延 要 
求 非常 高 。 比 如 某 个 节点 上 的 程序 执行 过 程 中 需要 一 
个 数据 ， 但 是 这 个 数据 躺 在 其 他 节点 内 存 里 ， 如 果 不 
拿 过 来 ， 这 个 节点 上 的 程序 就 会 空 等 在 那 挂 起 ， 假 设 
某 ， 任 务 如 果 需 要 一 千 次 数据 互 传 ， 每 次 传输 时 延 很 
高 比如 Sms 的 话 ， 忽 略 计算 时 间 ， 那 么 计算 就 需要 5 秒 
才能 结束 ， 如 果 需 要 100 万 次 数据 互 传 ， 你 算 算 多 长 时 
间 结 束 就 行 了 。 优 化 性 能 需要 从 占据 计算 时 间 比 例 最 
大 的 流程 开始 ， 再 小 的 事情 乘 以 13 亿 人 就 成 了 大 事 。 

但 是 也 不 排除 有 些 混合 场景 ， 比 如 既 需 要 大 吞吐 
量 的 批 处 理 场景 ， 动 驾 几 PB 数 据 扫 描 一 遍 或 者 写 一 
遍 ， 又 需要 大 计算 量 的 场景 。 这 个 就 要 综合 权衡 ， 大 
吞吐 量 不 需要 低 时 延 的 网 络 。 比 如 某 CPU 一 下 子 将 数 
百 MB 的 数据 推送 到 另外 节点 的 内 存 ， 此 时 时 延 不 重 
要 了 ， 因 为 这 几 百 MB 的 数据 底层 网 络 仅 仅 使 用 不 多 
的 1/O 次 数 就 可 以 传 过 去 。IOPS 的 量 下 来 了 ， 时 延 的 
影响 也 就 下 来 了 ， 网 络 硬件 的 成 本 也 就 下 来 了 ， 可 能 
使 用 10 GE 以 太 网 就 够 了 。 


9.5 利用 GPU 加 速 计算 


某 司 禁止 员工 在 工作 电脑 上 向 USB 盘 复制 数据 或 
者 通过 网 络 上 传 数据 ， 在 员工 电脑 上 装 有 监控 软件 。 
于 是 有 人 想 出 这 样 一 种 方法 : 将 数据 加 上 一 个 mp3 文 
件 头 ， 然 后 用 播放 器 进行 播放 。 播 放出 去 的 音乐 可 想 
而 知 基本 上 是 杂乱 的 噪声 ， 监 控 软件 再 牛 ， 它 不 可 能 
禁止 你 播放 mp3， 更 不 会 去 检查 这 首 mp3 是 什么 内 容 
(也 可 能 某 司 真 会 去 检查 ) 。 只 要 将 这 些 音 乐 用 录音 
机 录 下 来 ， 然 后 再 将 录 下 来 的 音乐 重新 解码 成 二 进 制 
数据 ， 就 成 功 实现 了 数据 转移 。 但 是 这 样 会 很 慢 ， 播 
放 一 首 4MB 的 mp3， 大 概 4 分 钟 ， 但 是 不 失 为 一 种 奇 


思 妙 想 。 不 过 ， 这 与 GPU 加 速 计算 有 何 干系 ? 还 记得 
在 第 8 章 中 介绍 过 的 用 纹理 来 存储 动画 信息 么 ? 这 也 
是 一 种 “不 务 正 业 ”。 

GPU 中 数 千 个 计算 单元 ， 如 果 只 用 来 泻 染 图 像 ， 
实在 是 心 有 不 甘 啊 。 于 是 把 要 计算 的 数据 当 作 顶 点 或 
者 像素 (虽然 这 些 顶 点 完全 是 杂乱 的 、 毫 无 模型 可 
言 ， 纹 理 看 上 去 也 是 噪声 ) ， 把 计算 过 程 写 到 Shader 
程序 中 ， 然 后 将 顶点 和 纹理 数据 、Shader 程 序 下 发 到 
GPU， 而 GPU 才 不 管 它 运算 的 是 一 堆 什么 东西 ， 让 
GPU 就 当 泻 染 图 像 一 样 去 泻 染 ， 把 中 间 结 果 缓存 复制 
到 Host 主 存 ， 就 得 到 了 计算 完毕 的 数据 。 如 果 让 GPU 
完成 泻 染 流程 的 其 他 部 分 ， 那 么 输出 到 屏幕 上 的 可 能 
是 一 堆 杂乱 的 像素 点 组 合 ， 但 是 这 些 结果 中 的 确 包 含 
了 有 用 的 信息 。 使 用 类 似 方法 ， 就 可 以 让 GPU 来 加 速 
通用 计算 ， 而 不 仅仅 是 加 速 图 形 演 染 。 


图 9-62 


插 有 多 块 显 卡 /GPU 的 服务 器 

GPU 天 然 就 是 一 个 并 行 计算 机 ， 这 台 位 于 一 张 单 
板 上 的 计算 机 ， 通 过 PCIE 接 口 与 Host 主 机 进行 通信 ， 
接受 Host 端 下 达 的 任务 并 完成 。 假 设 GPU 内 部 有 4k 个 
运算 单元 ， 那 么 其 并 行 度 相当 于 200 颗 20 核 的 CPU， 
当然 ， 目 前 的 通用 CPU 在 主 频 上 是 高 于 GPU 数 倍 的 
(3/4 GHz vs 1 GHz) ， 最 终 性 能 可 能 会 与 一 百 或 者 
几 十 颗 CPU 持 平 。 即 便 这 样 ， 使 用 一 颗 GPU 相 比 使 用 
大 量 CPU 而 言 也 是 一 笔 很 大 的 成 本 节省 ，100 颗 CPU 
意味 着 50 个 主板 〈 双 CPU 主板 的 话 ) 、50 套 机 箱 电 
源 、50 张 网 卡 等 辅助 组 件 ， 以 及 配套 的 机 柜 、 机 房 空 
间 等 ， 这 些 附 带 成 本 非常 高 。 另 外 一 个 隐形 成 本 则 是 
功 耗 ， 利 用 GPU 可 以 获得 更 高 的 每 瓦 算 力 。 

近年 来 市 场 上 出 现 了 一 些 在 2U/4U (1U=4.445 
cm) 高 度 服 务 器 机 箱 内 插 有 8 块 甚至 更 多 显卡 /GPU 的 


服务 器 ， 一 台 这 种 服务 器 就 相当 于 一 个 小 型 的 超级 计 
算 中 心 了 ， 非 常 适 合 一 些 科研 院 所 科学 计算 以 及 小 规 
模 人 工 智能 场景 使 用 。 


9.5.1 _ Direct3D 中 的 Compute Shader 


2008 年 微软 发 布 的 Direct3D 11 版 本 中 引入 了 支 

持 GPU 通 用 计算 的 Compute Shader 功 能 (又 被 俗称 为 
Direct Compute) ， 而 在 这 之 前 ， 人 们 采用 一 些 曲线 
DIY 方 式 来 基于 Direct3D 9.0 编 写 Shader 程 序 完成 通 
用 计算 。Compnute Shader 对 应 了 一 系列 封装 好 的 较 直 
观 的 API 函 数 和 数据 结构 ， 定 义 了 编程 方式 ， 依 然 采 
HLSL 高 级 着 色 语 言 来 编写 通用 计算 程序 。 

通用 计算 Shader 程 序 的 执行 与 Pixel/Vertex 
Shader 流 程 基本 类 似 ， 它 们 都 需要 被 载 入 GPU 内 部 的 
运算 单元 进行 计算 ， 只 不 过 图 形 程序 需要 经 过 栅 格 
化 、ROP、 纹 理 填充 和 过 滤 等 纯 硬 件 单元 的 处 理 。 
而 通用 计算 程序 则 只 通过 GPU 内 的 Unified Shader 计 
算 单 元 “有些 特殊 场景 也 可 以 利用 TMU 进 行 硬件 计 
算 ) ， 计 算 完毕 之 后 需要 将 结果 复制 回 Host 端 主 存 ， 
而 图 形 计算 的 结果 需要 被 输送 到 Frame Buffer 而 后 播放 
到 显示 器 上 。 
利用 Compute Shader 进 行 通用 计算 的 基本 步骤 是 : 
初始 化 设备 和 上 下 文 (D3D11CreateDevice(…)) ~ 
对 编写 好 的 HLSL Shader 程 序 文件 进行 编译 
(D3DCompileFromFile(…)) 、 为 Compute 
Shader 创 建 并 初始 化 资源 (CreateBuffer(…)， 
CreateUnorderedAccessView(…)) 、 设 定 Shader 
状态 (CSSetShader( ... ), CSSetConstantBuffers( ...). 
CSSetShaderResources(...), CSSetUnorderedAccessViews(..)、 
派发 到 GPU 执行 (Dispatch 0) ， 以 及 取 回 运算 结果 
(CopyResource(***)) 。 

随后 微软 封装 了 Compute Shader， 并 发 布 了 C++ 

AMP (Accelerated Massive Parallelism) ЈЕ, С++ 
AMP 完 全 屏蔽 了 底层 实现 细节 ， 用 户 根本 不 需要 关心 
上 述 这 些 初始 化 、 准 备 、Shader 编 写 和 编译 、 派 发 等 
步骤 。 只 需要 一 些 简单 的 语法 ，C++AMP 自 动 帮 你 写 
成 Shader 并 编译 ， 自 动 完成 派发 计算 。 


9.5.2 OpenCL 和 OpenACC 


OpenCL 是 由 Apple 发 起 、Khronos Group 维护 
的 一 个 跨 平台 的 并 行 计算 库 ， 其 角色 位 置 和 作用 与 
OpenGL 类 似 ， 但 是 后 者 专门 用 于 图 形 演 染 。 这 意味 
着 ，OpenCL 这 套 API， 与 OpenGL 和 Direct3D 一 样 ， 
底层 也 需要 GPU 厂商 〈 或 者 其 他 一 些 并 行 计 算 芯片 
厂商 比如 一 些 DSP 等 ) 为 其 开发 底层 的 驱动 程序 ， 
从 而 翻译 成 对 应 的 GPU 命令 ， 来 完成 任务 的 管理 和 
派发 、 执 行 工作 。 这 就 是 跨 硬件 和 操作 系统 平台 兼 
容 的 一 个 代价 。 另 外 ，NVIDIA 和 AMD 各 自 都 有 自 
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己 的 并 行 计 算 库 ， 分 别名 为 CUDA 和 FireStream， 也 
正 因 如 此 ， 底 层 硬 件 厂 商 对 于 这 种 通用 统一 API 也 并 
不 太 上 心 ， 基 本 上 一 心 扑 在 自己 专用 的 库 上 。 所 以 
OpenCL 的 性 能 完全 比 不 上 NVIDIA 和 AMD 自 家 专 
的 库 。 不 过 对 于 一 些 通用 DSP、 众 核心 CPU 等 场景 ， 
OpenCL 应 用 较 广 。 

另外 一 个 可 以 利用 GPU 加 速 的 并 行 计算 库 为 
OpenACC (Open Acceleration) 。 其 像 OpenMP 一 
样 ， 通 过 编译 制导 关键 语句 来 让 编译 器 自动 完成 并 
行 优化 ， 其 主要 面向 GPU、 众 核心 CPU 等 加 速 芯片 。 
而 OpenMP 只 针对 多 核心 CPU 做 并 行 优 化 。 如 图 9-63 
所 示 为 OpenACC 示 意图 。 目 前 ，OpenACC 很 少 有 人 
使 用 。 
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图 9-63 OpenACC 示 意图 


9.5.3 NVIDIA 的 CUDA АР! 


20074 ( 早 于 D3D Compute Shader 一 年 ) ， 
NVIDIA 发 布 了 自家 的 CUDA (Compute Unified Device 
Architecture) 编程 语言 库 。CUDA 只 支持 NVIDIA 自 
家 的 GPU， 但 是 其 无 论 在 性 能 和 易 用 性 上 ， 都 是 目前 
最 佳 的 GPU 并 行 计算 加 速 语言 库 。 这 也 进一步 夯实 了 
NVIDIA 在 通用 计算 比如 科学 计算 、 人 工 智 能 等 领域 
的 广泛 市 场 基础 。 


9.5.3.1 CUDA 基 本 架构 


与 D3D、0OGL、OpenCL 一 样 ，CUDA 也 是 一 
套 语言 、API 和 库 。 与 DB3D 和 OGL 一 样 ，CUDA 软 
件 栈 也 由 两 部 分 组 成 : 用 户 态 驱动 ， 在 Windows 下 
位 于 nveuda.dll 文 件 中 ;以 及 上 层 与 应 用 程序 对 接 的 
Runtime 库 ， 在 Windows 下 位 于 cudart.dll (动态 链接 ) 
以 及 cudartlib (静态 链接 ) 中 ， 在 Linux 下 相应 地 各 自 
位 于 libcudart.so 以 及 libcudarta 中 。 不 过 ， 应 用 程序 除 
了 调用 cudart.dll， 也 可 以 直接 调用 CUDA 用 户 态 驱动 
的 函数 实现 CUDA 全 部 功能 。 

如 图 9-64 所 示 为 nveuda.dll 文 件 的 导出 函数 (还 
记得 导出 函数 这 个 概念 么 ? 见 本 书 第 5 章 介 绍 ) 表 一 


万 箭 齐 发 一 -加速 计算 与 超级 计算 机 [和 


а а ЕЕ 

地 址 名 称 地 址 名 称 
1001FDAF GetlAtomString 1000162A cuEventQuery 
10001000 cuArrayCreate 10001565 cuEventRecord 
1000110E cuArrayDestroy 10001671 cuEventSynchronize 
10001008 cuArrayGetDescriptor 1000176E cuFuncSetBlockShape 
100012EC cuCtxAttach 10001808 cuFuncSetSharedSize 
1000126F cuCtxCreate 10001809 cuGLlnit 
10001331 cuCtxDetach 1000198C cuGLMapBufferObject 
100013AB cuCtxSynchronize 10001952 cuGLRegisterBufferObject 
10014FFB cuD3D9Begin 10001908 cuGLUnmapBufferObject 
10015033 cuD3D9End 10001A12 cuGLUnregisterBufferObject 
10015110 cuD3D9GetDevice 10001A4C сит 
10015083 си0309Мар\ецехВийег 10001А9В cuLaunch 
10015065 cuD3D9REegisterVertexBuffer 10001869 сшаипсһбп@ 
10015089 cuD3D9UnmapvVertexBuffer 10001BFE 。 сшїаипсһбпїйАзупс 
1001508С cuD3D9UnregisterVertexBuffer 10001ЕВС cuMemAlloc 
10001463 cuDeviceComputeCapability 10001FFC cuMemallocHost 
100013CC cuDeviceGet 10001EF8 cuMemAllocPitch 
1000150Е cuDeviceGetAttribute 10001FCD cuMemFree 
10001405 cuDeviceGetCount 1000203C cuMemFreeHost 
10001429 cuDeviceGetName 10002068 cuMemGetAddressRange 
100014D9 cuDeviceGetProperties 100020A5 cuMemGetinfo 
100014A4 cuDeviceTotalMem 10002469 cuMemcpy2D 
10001548 cuEventCreate 100029BC cuMemcpy2DAsync 
1000157Е cuEventDestroy 100024BC cuMemcpy2DUnaligned 
10001688 cuEventElapsedTime 1000268C cuMemcpyAtoA 

图 9-64 


览 ， 其 全 都 是 以 “cu” 开 头 的 函数 。 上 层 程序 可 以 
直接 调用 这 些 函数 来 实现 CUDA 计 算 。 该 驱动 直接 与 
GPU 内 核 态 驱动 通信 完成 GPU 命令 的 下 发 ， 具 体 是 通 
过 调用 Windows 操 作 系统 内 核 提供 的 kernel32.dll 中 的 
设备 操作 函数 与 内 核 驱 动 通信 。 
然而 直接 调用 nveuda.dll 驱 动 中 的 函数 略 显 烦琐 ， 


因为 需要 关注 到 设备 上 下 文 等 方面 的 底层 细节 ， 开 发 
出 来 的 代码 读 起 来 比较 费劲 。 所 以 还 是 调用 上 层 的 
cudart.dll ССОРА Runtime) 更 方便 。 该 库 导 出 函数 基 
本 都 以 “cuda” 关 键 字 开头 。 该 函数 库 在 底层 通过 调 
用 nveuda.dll 完 成 工作 。 

如 图 9-65 所 示 为 CUDA 软 件 栈 示意 图 。 调 用 
cudart.dl] 还 是 nvcuda.dll， 取 决 于 用 户 程序 对 底层 的 控 
制 力度 和 灵活 度 ， 调 用 更 底层 的 nveuda.dll 会 实现 更 高 
的 灵活 性 以 及 性 能 ， 但 是 开发 起 来 也 难 一 些 。 在 程序 
中 也 可 以 混合 调用 这 两 个 库 中 的 函数 。 


Application 


CUDA Libraries ( cuFFT..... ) 
CUDA Runtime Libraries ( cudart.dll ) 


к = 
СОРА Driver Libraries ( nvcuda.dll ) 
ЕЗ 
DA Kernel Driver 
GPU Hardware 
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地 址 名 称 地 址 名 称 

1000250B cuMemcpyAtoD 10001E04 cuParamSetTexRef 
10002000 cuMemcpyAtoH 10001D3F сиРагатЅеі 

10002782 cuMemcpyAtoHAsync 10001CE7 cuParamSeti 

100025C8 。 cuMemcpyDtoA 10001097 — cuParamsetv 
10002220 — cuMemcpyDtoD 10003209 cuStreamCreate 
10002105 cuMemcpyDtoH 1000330Е — cuStreamDestroy 
10002922 cuMemcpyDtoHAsync 100033D6 cuStreamQuery 
10002120  cuMemcpyHtoA 10003356 cuStreamSynchronize 
10002805 cuMemcpyHtoAAsync 1000341D cuTexRefCreate 
1000218А cuMemcpyHtoD 10003483 cuTexRefDestroy 
10002888 cuMemcpyHtoDAsync 10003778 cuTexRefGetAddress 
10002A88 cuMemsetD16 1000388A cuTexRefGetAddressMode 
10002C46 cuMemsetD2D16 100037D2 cuTexRefGetArray 
10002D58 cuMemsetD2D32 100038E1 cuTexRefGetFilterMode 
10002B3C cuMemsetD2D8 1000392F cuTexRefGetFlags 
10002AE2 cuMemsetD32 10003826 cuTexRefGetFormat 
10002A37 cuMemsetD8 100034D2 cuTexRefSetAddress 
10001869 cuModuleGetFunction 10003678 cuTexRefSetAddressMode 
100030C6 cuModuleGetGlobal 1000359A cuTexRefSetArray 
1000305A cuModuleGetTexRef 10003547 cuTexRefSetCPUAddress 
1000316E cuModuleLoad 100036D1 cuTexRefSetFilterMode 
10002Е75 cuModuleLoadData 10003720 cuTexRefSetFlags 
10002F9F cuModuleLoadFatBinary 10003619 cuTexRefSetFormat 
10003014 cuModuleUnload 

10001C96 cuParamSetSize 


nvcuda.dll 文 件 中 的 导入 函数 表 一 览 


提示 > 

如 果 你 使 用 dll 分 析 工 具 打 开 cudart.dll 的 话 ， 
会 发 现 其 并 没有 显 式 导 入 nvcuda.dll 中 的 函数 ， 似 
卑 并 不 依赖 后 者 。 其 实 ， 调 用 其 他 dll 的 函数 并 不 
一 定 必须 按照 dl 格式 来 声明 导入 ， 还 有 其 他 多 种 
方式 ， 比 如 程序 运行 时 可 以 调用 由 Windows 提 供 的 
loadlibraryO 函 数 明确 指定 将 某 个 dl! 文 件 载 入 并 提取 
其 中 函数 执行 ， 这 样 也 是 可 以 的 。cudart.dl1 内 部 就 
采用 了 这 种 方式 调用 nvcuda.dll。 


如 图 9-66 所 示 为 cudart.dll 中 的 导出 函数 一 览 。 


基于 cudart.dll 库 ， 业 界 开发 了 多 种 更 上 层 的 运 
算 加 速 库 ， 比 如 NVIDIA 自 家 的 PhysX 物 理 特 效 加 
速 库 ， 再 比如 cUFFT 就 是 利用 GPU 做 快速 傅 里 叶 变 
换 运 算 的 库 。 其 他 还 有 : cuBLAS、cuSPARSE、 
cURAND cuDNN, AmgX, HiPLAR、 IMSL, 
NVBIO, CULA Tools, MAGMA, CUSP、 
ArrayFire、Sundog、Thrust 等 。 这 些 库 底层 都 是 基 
于 CUDA Runtime API 的 封装 。 


如 图 9-67 所 示 为 CUDA 程 序 的 运行 过 程 。 整 个 程 
序 中 的 串 行 部 分 仍然 在 CPU 上 运行 ， 但 是 并 行 部 分 会 
被 派发 到 GPU 上 执行 ， 首 先 向 GPU 发 命令 申请 一 定数 
量 的 显存 ， 然 后 将 要 计算 的 数据 复制 到 申请 好 的 GPU 
显存 中 ， 启 动 执 行 。 计 算 完毕 之 后 GPU 会 将 数据 复制 
到 Host 端 主 存 ， 然 后 继续 执行 其 他 部 分 。 


жов “万 箭 齐 发 一 一 加 速 计算 与 超级 计算 机 [SR 生生 


地 址 名 称 地 址 名 称 
10002D90 cudaGetBlockldxPtr 100078A6 cudaD3D9ResourceGetMappedPointer 
10003CEB  cudaGetSharedMem 1000798C cudaD3D9ResourceGetMappedSize 
10008A30 _cudaRegisterFatBinary 100077BA cudaD3D9ResourceGetSurfaceDimensions 
10008FD6 cudaRegisterFunction 1000760А cudaD3D9ResourceSetMapFlags 
10008DF9 —cudaReg isterShared 10007243 cudaD3DSSetDirect3DDevice 
10008EE6  cudaRegisterSharedVar 100075FA cudaD3D9UnmapResources 
10008CF9 _ cudaRegisterTexture 1000808D cudaD3D9UnmapvertexBuffer 
10008BF1 _ cudaRegisterVar 1000743D cudaD3D9UnregisterResource 
10002015 _ cudaSynchronizeThreads 10007EDO cudaD3D9UnregisterVertexBuffer 
10003A33 _ cudaTextureFetch 100045E2 cudaEventCreate 
10008B1D _ cudaUnregisterFatBinary 10004959 cudaEventDestroy 
1000816A cudaBindTexture 10004A36 cudaEventElapsedTime 
10008253 cudaBindTextureToArray 1000479F cudaEventQuery 
10004DEF cudaChooseDevice 100046BF cudaEventRecord 
10004ED4 cudaConfigureCall 1000487C cudaEventSynchronize 
10003AC9 cudaCreateChannelDesc 10005527 cudaFree 
10007858 cudaD3D9Begin 10005885 cudaFreeArray 
10007C38 cudaD3D9End 10005604 cudaFreeHost 
10007D10 cudaD3D9GetDevice 10006FA9 cudaGLMapBufferObject 
10007280 cudaD3D9GetDirect3DDevice 10006ECC cudaGLRegisterBufferObject 
1000751A cudaD3D9MapResources 10006DF4 cudaGLSetGLDevice 
10007FAD cudaD3D9MapVertexBuffer 10007089 cudaGLUnmapBufferObject 
1000735D cudaD3D9RegisterResource 10007166 cudaGLUnregisterBufferObject 
10007DF3 cudaD3D9RegisterVertexBuffer 100085D3 cudaGetChannelDesc 
10007A72 cudaD3D9ResourceGetMappedPitch 10004BFO cudaGetDevice 
10004C28 cudaGetDeviceCount 10009005 cudaMemcpyArrayToArray 
10004005 cudaGetDeviceProperties 10005A7A cudaMemcpyAsync 
10003802 cudaGetErrorString 100064BA cudaMemcpyFromArray 
10004154 cudaGetLastError 100065A8 cudaMemcpyFromArrayAsync 
100086B3 cudaGetSymbolAddress 10005D3A cudaMemcpyFromSymbol 
10008793 cudaGetSymbolSize 10005E25 cudaMemcpyFromSymbolAsync 
10008413 cudaGetTextureAlignmentOffset 100060F4 cudaMemcpyToArray 
100084F3 cudaGetTextureReference 100061E2 cudaMemcpyToArrayAsync 
100050AD cudaLaunch 10005863 cudaMemcpyToSymbol 
1000518A cudaMalloc 10005C4E cudaMemcpyToSymbolAsync 
10005432 cudaMalloc3D 10006B34 cudaMemset 
100057CB cudaMalloc3DArray 10006C17 cudaMemset2D 
100056E1 cudaMallocArray 10006000 cudaMemset3D 
1000526А cudaMallocHost 10004B19 cudaSetDevice 
1000534А cudaMallocPitch 10008873 cudaSetDoubleForDevice 
10005992 cudaMemcpy 10008951 cudaSetDoubleForHost 
10005F11 cudaMemcpy2D 10004FCA cudaSetupArgument 
10006880 cudaMemcpy2DArrayToArray 1000426E cudaStreamCreate 
10006002 cudaMemcpy2DAsync 1000434B cudaStreamDestroy 
10006697 cudaMemcpy2DFromArray 10004505 cudaStreamQuery 
1000678B cudaMemcpy2DFromArrayAsync 10004428 cudaStreamSynchronize 
100062D1 cudaMemcpy2DToArray 10004188 cudaThreadExit 
100063C5 cudaMemcpy2DToArrayAsync 10004196 cudaThreadSynchronize 
10006975 cudaMemcpy3D 10008336 cudaUnbindTexture 
10006A54 cudaMemcpy3DAsync 
图 9-66 ”cudart.dll 中 的 导出 函数 一 览 
Host 
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FE 到 大 话 计算 机 一 一 计算 机 系统 底层 架构 原理 极限 剖析 


9.5.3.2 一 个 极 简 的 CUDA 程 序 


下 面 我 们 通过 一 个 极 简单 的 CUDA 程 序 来 向 大 家 展示 一 下 CUDA 程 序 的 基本 编写 方式 。 


£ #include<stdio.h> 
2 #define N 8 
3. __д1оБа1__ void add(int *a,int *b,int *c) 
4. ( 
5. int tid=blockIdx.x; 
6 if (tid<N) 
7 c[tid]=a[tid]+b[tid]; 
8 } 
9. int main() { 
10. int arr1[N],arr2 [N]; int зим [№]; 
int *a; int *b; int *res; 
cudaMalloc ( (void**) &res, sizeof (int) *N) ; 
cudaMalloc ( (void**) ga, sizeof (int) *N) ; 


cudaMemcpy (b, arr2, sizeof (int) *N, cudaMemcpyHostToDevice); 


add<<<N,1>>>(a,b,res); // 调 用 核 函数 ， 定 义 N 个 Block， 每 Block 包 含 1 个 线程 ， 并 行 执行 该 函数 


RBP ANRE 
// 声 明 一 个 函数 ， 该 函数 逻辑 需要 在 GPU 上 执行 


// 定 义 三 个 数组 


for(int i=0;i<N;i++) (arrl[i]=i; arr2[i]=i+1;) // 对 数组 进行 数据 填充 


// 定 义 三 个 指针 用 于 保存 下 面 分 配 好 的 显存 的 指针 
// 分 配 N*4 字 节 显 存 用 于 盛 放 两 个 数组 之 和 ( 一 个 int 为 32bit ) 
// 分 配 N*4 字 节 显存 用 于 盛 放 数 组 a 


cudaMalloc ( (void**) gb, sizeof (int) *N) ; // 分 配 N*4 字 节 显存 用 于 盛 放 数 组 b 
cudaMemcpy (а, arrl, sizeof (int) *М, cudaMemcpyHostToDevice) ; // 向 显存 复制 数据 


// 向 显存 复制 数据 


19. cudaMemcpy (sum, гез, sizeof (int) *N, cudaMemcpyDeviceToHost); // 把 结果 从 res 复 制 回 到 sum 
20.  сидаЕгее (а); // 通 知 GPU 释放 显存 

21. cudaFree (b); // 通 知 GPU 释放 显存 

22. for(int i=0;i<N;i++) (printf( "жал" ,sum[i]);} // 显 示 计 算 结果 


23. } 


上 述 代 码 利 用 CUDA Runtime API 编 写 而 成 的 C 代 
码 ， 其 中 红色 字体 为 与 CUDA 相 关 的 关键 地 方 ， 其 他 
位 置 均 为 传统 C 代 码 。 对 应 的 这 些 CUDA 相 关 函 数 也 
都 可 以 在 图 9-66 所 示 的 函数 中 找到 。 

global 关键 字 指 出 其 后 面 定 义 的 函数 中 的 逻 
辑 ， 是 需要 在 GPU 而 不 是 CPU 上 执行 的 。 这 种 函数 又 
被 称 为 Kermel〈 核 函数 ) ， 意 思 是 该 函数 为 需要 被 并 行 
执行 的 核心 逻辑 ， 其 他 函数 都 是 为 了 该 函数 的 执行 而 
做 准备 的 。 如 果 核 函数 内 部 的 逻辑 比较 复杂 ， 可 以 分 
隔 生 成 多 个 子 核 函数 ， 以 _device_ 关键 字 声 明 ， 其 表 
明 该 函数 仅 限于 GPU (Device) 执行 时 在 GPU 的 代码 内 
部 调用 ，Host 端 主 程序 无 法 直接 调用 这 些 子 核 函 数 。 

blockIdx.x 为 当前 运行 这 段 代码 的 线程 ID， 至 于 
其 含义 下 文中 再 介绍 。 

cudaMalloc 函 数 的 作用 是 通知 GPU 分 配 一 定量 的 
显存 用 于 接收 即将 发 过 去 的 数据 ， 其 参数 含义 为 : 
cudaMalloc〈 用 于 存放 分 配 好 的 显存 的 基地 址 指针 变 
量 ， 分 配 显 存 的 大 小 ) 。 

cudaMemcpy 函 数 的 作用 是 将 数据 在 GPU 显 
存 和 Host 主 存 之 间 进 行 复 制 ， 其 参数 含义 为 : 
cudaMemcpy《〈 显 存 基 地 址 指针 ， 主 存 基地 址 指针 ， 
复制 的 数据 大 小 ， 复 制 方向 ) ， 其 中 复制 方向 包括 : 
cudaMemcpyHostToDevice、cudaMemcpyDeviceToHost、 
cudaMemcpuDeviceToDevice。 


cudaFree 函 数 的 作用 是 通知 GPU 释放 之 前 被 分 配 
的 显存 。 

add<<<N, 1>>>(a,b,res) 表 示 调 用 之 前 定义 的 名 为 
add 的 核 函数 ，<<<N, 1>>> 关 键 字 表示 通知 GPU 开 启 
NSRI (Thread Block) ， 每 个 Block 内 含 1 个 线 
程 。 本 例 中 总 共 是 8 个 线程 来 运行 上 述 代 码 ， 每 个 线 
程 运行 相同 的 代码 ， 但 是 会 根据 线程 ID 来 处 理 数 组 中 
不 同 的 数据 ， 这 样 就 做 到 了 任务 的 分 割 和 并 行 ， 让 各 
个 线程 各 干 各 的 互 不 干扰 ， 当 然 也 可 能 产生 线程 间 相 
互 传递 一 些 结果 ， 但 是 此 时 会 制约 并 行 性 ， 导 致 性 能 
下 降 。 这 些 线程 并 不 必须 同时 被 并 行 执行 ， 可 以 先 执 
行 其 中 一 批 线程 ， 再 执行 另 一 批 。NVIDIA 的 GPU 每 
次 调度 32 个 线程 〈 一 个 Warp， 第 8 章 提 到 过 ) 到 一 个 
Stream Multiprocessor 执 行 。 

可 能 大 家 会 产生 三 个 迷惑 。 第 一 个 迷惑 : 为 什 
么 使 用 _global 关键 字 就 可 以 让 该 函数 运行 在 GPU 
上 ? 底层 机 制 是 怎样 的 ? 谁 将 代码 派发 到 GPU 上 运 
行 的 ? 谁 将 该 函数 的 代码 编译 成 GPU 指令 的 ? 这 个 
问题 的 答案 ， 当 然 要 有 对 应 的 CUDA 编 译 器 了 ， 因 为 
CUDA 不 仅仅 是 一 些 函 数 库 ， 其 定义 了 全 新 的 扩展 语 
法 ， 需 要 对 应 的 编译 器 来 翻译 这 些 额 外 语句 ， 同 时 
编译 核 函 数 ， 以 及 将 代码 编译 成 GPU 指令 。 如 图 9-68 
所 示 为 CUDA 程 序 的 编译 过 程 ，CUDA 程 序 采 用 nvec 
编译 器 进行 编译 ，nvece 编 译 器 会 调用 编译 器 编译 串 


行 部 分 ， 自 己 编译 并 行 部 分 ， 最 后 调用 链接 器 进行 

链接 。 
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第 二 个 迷 感 : cudaMalloc、cudaMemcpy 以 及 
add<<<N,1>>>(a,b,res) 函 数 被 调用 之 后 ，GPU 内 部 
都 发 生 了 什么 事件 ?cudaMalloc 函 数 内 部 封装 了 一 
系列 用 于 让 GPU 内 部 分 配 显存 的 命令 ， 返 回 的 是 分 
配 好 的 显存 指针 。cudaMemecpy 函 数 则 利用 DMA 机 
制 〈 见 本 书 第 7 章 ) 在 GPU 显存 和 Host 主 存 之 间 复 制 
数据 。 

在 调用 核 函 数 之 前 ， 程 序 已 经 将 所 有 待 计算 的 数 
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据 复制 到 了 显存 中 。 对 核 函 数 的 调用 并 非 像 传统 函数 
调用 那样 直接 跳 转 到 该 函数 入 口 执行 ， 因 为 该 函数 被 
编译 之 后 其 实 是 GPU 一 侧 的 代码 ，CPU 并 不 能 识别 。 
对 核 函 数 的 调用 其 实 会 被 nvcc 编 译 器 加 上 一 个 外 壳 函 
数 ， 该 函数 在 CPU 一 侧 执行 ， 其 执行 的 结果 是 将 核 函 
数 二 进 制 代 码 整 体 复制 到 GPU 显存 ， 并 命令 GPU 开始 
执行 核 函 数 。 

这 些 命令 中 会 带 有 对 应 的 参数 ， 告 诉 GPU 开启 多 
少 个 线程 来 执行 核 函 数 。 每 个 线程 运行 在 一 个 处 理 单 
元 上 ， 每 个 单元 执行 时 ， 根 据 自 己 的 线程 ID 来 到 数组 
中 选择 对 应 的 数值 进行 计算 ， 达 到 并 行 目 的 。 

核 函数 被 下 发 到 GPU 执行 时 是 异步 的 ， 也 就 是 说 
上 述 代码 中 的 add 函 数 调用 之 后 立即 就 返回 了 ， 开 始 
执行 cudaMemcpy 函 数 ， 而 cudaMemepy 函 数 是 同步 阻 
塞 的 ， 也 就 是 该 函数 会 等 待 GPU 完成 计算 之 后 ， 才 开 
始 复制 内 存 。 
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第 三 个 迷惑 : blockidx.x、Block 到 底 是 什么 ， 怎 
么 定义 的 ? GPU 内 部 怎么 按照 这 些 参数 执行 的 ? 此 
处 建议 大 家 回顾 一 下 本 书 第 8 章 的 图 8-274、 图 8-275 
所 示 的 NVIDIA GPU 典型 架构 中 的 Stream Multi- 
Processor (SM) 的 概念 。 图 9-69 所 示 为 GPU 内 部 
对 线程 的 组 织 方式 。 如 图 左 侧 所 示 ， 每 个 线程 运 
行 在 一 个 运算 单元 ALU 上 ， 由 于 一 个 SM 上 有 多 个 
运算 核心 (一 般 为 32 个 ) ， 所 以 一 个 SM 可 以 同时 
运算 32 个 线程 。 所 以 多 个 线程 可 以 组 成 一 个 线程 
块 (Block) ， 每 个 Block 内 部 的 线程 数量 可 灵活 选 
择 ， 并 不 一 定 是 32， 可 以 大 于 或 者 小 于 32， 但 是 为 
了 不 浪费 资源 ， 最 好 是 运算 单元 数量 的 整 倍数 。 大 
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图 9-69 GPU 内 部 对 线程 的 组 织 方式 
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于 32 的 Block 会 被 拆 分 成 多 个 Warp 〈 每 个 Warp 含 32 线 
程 ) 轮流 调度 到 SM 上 执行 。 每 个 Block 只 能 被 分 派 
到 一 个 SM 上 执行 ， 如 果 需 要 更 多 的 并 行 度 ， 则 Host 
端 程序 需要 分 派 多 个 Block 来 执行 核 函 数 ， 从 而 可 
以 利用 更 多 SM 核 心 的 算 力 。 多 个 Block 组 成 了 一 个 
Grid， 每 个 核 函数 对 应 一 个 Grid。 

Grid 内 部 的 Block 编 号 以 及 每 个 Block 内 部 线程 
的 编号 都 以 三 维 〈 行 / 列 /高 ) 方式 编排 ， 但 是 通常 
省 略 高 度 这 一 维 ， 只 使 用 行列 ， 如 图 9-70 所 示 。 上 
文中 的 核 函 数 add<<<N, 1>>> 的 完整 表示 其 实 应 该 是 
add<<<Dg, Db, Ns, S>>>。 其 中 Dg 和 Db 为 CUDA 定 义 
的 一 种 特殊 的 数据 类 型 dim3 (Dimension3) , 表示 
方式 是 : Dim3 Dg(Dg.x, Dg.y, 1) 以 及 Dim3 Db(Dg.x, 
Dg.y, Db.z)，Grid 内 的 块 数量 一 般 省 略 高 度 ， 恒 定 为 
1。 如 果 想 定义 一 个 包含 2 行 3 列 共 6 个 Block 的 Grid， 同 
时 每 个 Block 中 包含 4 行 4 列 2 层 共 32 个 线程 的 话 ， 那 么 
要 定义 成 这 样 : Dim3 Dg(2,3,1)，Dim3 Db(4,4,2)。 并 
将 Dg 和 Db 这 两 个 变量 作为 参数 输送 到 核 函 数 的 <<<… 
>>> 中 。 参 数 Ns 可 选 ， 用 于 告诉 GPU 可 以 为 每 个 Block 
动态 分 配 多 少 额外 的 Shared Memory (Shared Memory 
见 下 文 ) 。 参 数 S 用 于 告诉 GPU 该 核 函 数 在 哪个 流 
(Stream) 中 执行 。 流 概念 的 引入 是 为 了 让 程序 来 精 
确 控制 多 个 核 函 数 的 调度 方式 ， 尽 量 让 一 个 核 函数 在 
GPU 上 执行 的 时 候 ， 另 一 个 核 函数 对 应 的 数据 正在 从 
Host 主 存 复制 到 显存 ， 而 不 是 让 这 两 个 核 函 数 同 时 争 
用 GPU 执行 ， 而 Host 端 却 在 闲置 。 限 于 篇 幅 请 大 家 自 
行 了 解 更 多 内 容 。 
098605690 
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9-70 三维 编号 的 含义 

这 里 大 家 一 定 会 产生 一 个 疑惑 ， 那 就 是 为 什么 
不 用 线性 编号 的 形式 ， 比 如 某 个 核 函 数 对 应 的 Grid 
中 包含 256 个 线程 ， 从 1 编 到 256 不 就 可 以 么 ? 为 何 


һо 
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多 此 一 举 按照 多 维度 、 多 段 式 方式 编排 ? 这 是 为 了 
编程 时 更 加 方便 。 因 为 每 个 线程 需要 从 全 部 待 处 理 
数据 (通常 是 数组 ) 中 按照 自己 的 线程 ID 来 切取 对 
应 的 数据 运算 。 如 果 按 照 线性 编号 ， 比 如 256 个 线 
程 ， 程 序 员 在 分 割 数 据 的 时 候 比 较 难 以 计算 出 比如 
第 200 个 线程 需要 处 理 某 数 组 中 的 哪些 数据 块 。 如 果 
按照 维度 来 编号 ， 可 以 直接 按照 维度 行列 号 来 切 分 
数据 ， 比 如 4X4X2=32 线 程 ， 程 序 员 可 以 很 方便 地 
得 出 第 1 行 、 第 1 列 、 第 2 层 的 那个 线程 处 理 的 是 哪些 
数据 。 

现在 你 该 知道 blockIdx.x 的 含义 了 ， 其 为 CUDA 
的 内 建 变量 ， 表 示 当 前 线程 对 应 的 Block 的 二 维 编号 
中 的 行 号 。 由 于 本 例 中 直接 使 用 了 立即 数 N CN=8) 
来 作为 add<<<…>>>(….) 的 参数 ，CUDA 默 认 会 认 
为 用 户 只 给 出 了 行 号 ， 没 有 给 出 其 他 维度 信息 ， 
则 其 他 维度 默认 为 1， 则 对 应 的 Grid 中 包含 8 行 1 列 
Block。 而 由 于 add<<<N, 1>>> 中 的 每 Block 线 程 数 被 
指定 为 1， 则 每 个 Block 中 只 包含 一 个 线程 ， 则 线程 
ID=blockIdx.x。 类 似 的 内 建 变量 还 有 gridDim.x/y/z、 
blockDim.x/y/z、threadIdx.x/y/z 和 warpSize。 引 用 这 
些 变 量 时 ， 编 译 器 会 自动 算出 对 应 的 数值 。 

当然 ， 本 例 给 出 的 代码 极 简 ， 现 实 中 有 更 为 复杂 
的 映射 方式 ， 但 是 其 本 质 都 是 相同 的 。 至此， 上 面 提 
出 的 几 个 疑惑 就 解答 完了 。 


9.5.3.4 GPU 对 CUDA 线 程 的 调度 方式 


如 图 9-71 所 示 为 线程 编排 和 调度 方式 示意 图 。 
每 个 Block 中 的 所 有 线程 只 能 被 调度 到 同一 个 SM 上 运 
行 ， 每 个 SM 中 一 般 含 有 32 个 运算 单元 。 如 果 Block 
中 线程 数量 大 于 32， 比 如 为 48， 则 这 些 线程 会 被 分 
割 为 一 个 32 线 程 的 Warp 和 一 个 16 线 程 的 Warp， 轮 流 
被 Warp Scheduler 调 度 到 SM 上 执行 。 当 然 ， 执 行 16 
线程 Warp 时 ，SM 中 一 半 的 算 力 会 被 闲置 ， 如 图 9-72 
所 示 。 
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图 9-71 GPU 对 CUDA 线 程 的 编排 和 调度 示意 图 


Warp 0 | Warp 1 


Ж >>> = =] 


要 用 满 GPU 中 的 所 有 SM， 则 可 以 定义 对 应 数量 
的 Block， 每 个 Block 均 分 一 个 SM 执 行 。 如 果 总 体 线程 
数量 大 于 GPU 内 部 总 体 运 算 单元 数量 ， 则 有 些 Block 
会 被 调度 到 同一 个 SM 上 轮流 执行 〈 每 个 Block 依 然 被 
拆 分 为 Warp 粒 度 ) 。 所 以 对 Dim3 Dg/Db 的 数值 定义 
非常 关键 ， 这 直接 影响 性 能 。 

如 图 9-73 左 侧 所 示 ，Block 会 被 均 分 到 多 个 SM 上 
并 行 执行 。 图 中 右 侧 所 示 为 同一 个 Grid 内 所 有 线程 均 
运行 相同 的 代码 ， 这 也 就 是 SIMT 的 概念 (本 书 第 8 章 
介绍 过 ) 。 但 是 这 里 需要 注意 一 点 ， 由 于 Grid 被 分 割 
为 Block，Block 又 被 分 割 为 Warp， 所 b widhi A 
а 致 的 ， 但 是 同一 个 Warp 
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Warp 2 


Thread Block 0 


threadID 1:212 ll sl el 


float x= float x = 
input [threadID] ; 
float у = fune (x); 
output [threadID] = y; 


Thread Block 1 
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input [threadTD] ; 
float у = Ечпс(х); 
output [threadID] = y; 
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调度 机 会 多 一 些 ， 则 其 会 先 执 行 完毕 ， 其 计算 结果 也 
会 先 被 写 入 到 对 应 的 数据 结构 中 ， 当 所 有 Warp 执 行 完 
后 ， 整 个 Grid 所 表示 的 核 函数 才 算 执行 完毕 。Grid 内 
产生 步调 不 一 致 是 没 办 法 的 事情 ， 因 为 运算 单元 的 数 
量 是 有 限 的 ， 线 程 们 总 要 排 个 先后 。 而 如 果 假 设 GPU 
内 部 有 足够 多 的 运算 单元 ， 那 么 理论 上 同一 个 Grid 内 
的 全 部 线程 是 完全 可 以 齐头并进 步调 一 致 的 。 但 是 一 
方面 GPU 内 部 单元 是 有 限 的 ， 另 一 方面 Host 端 可 以 先 
后 下 发 多 个 核 函数 给 GPU 执行 ， 只 要 每 个 核 函 数 对 应 
的 Grid 中 的 Block 和 线程 数量 没有 占 满 GPU 全 部 资源 ， 
多 个 核 函数 就 可 以 并 行 执行 ， 各 利用 一 部 分 资源 ， 多 
个 Grid 会 轮流 争 抢 资源 ， 所 以 最 终 形 成 了 步调 不 一 致 
的 Warp 们 。 另 外 ，Block 及 Block 内 的 Warp 被 调度 到 
SM 上 执行 的 时 机 也 是 完全 不 确定 的 ， 也 就 是 说 Warp 
间 可 以 乱 序 执行 。 

每 个 Warp 被 轮流 调度 到 SM 上 执行 ， 如 图 9-74 所 
示 。 Warp 按 照 单个 指令 步 进 粒度 的 调度 方式 来 调度 
执行 ， 比 如 Warp8 中 线程 代码 中 的 第 11 条 和 第 12 条 
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float x = 

input [threadID] ; 
float у = func (x); 
output [threadID] = y; 
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指令 分 别 为 一 条 纹理 运算 指令 〈 引 发 Load/Stor 单 元 
从 纹理 缓存 中 寻 址 读 取 纹 理 并 经 过 TMU 单 元 的 计算 
处 理 ) 和 一 条 高 精度 浮 点 运算 指令 ， 这 两 个 操作 耗 
费时 间 较 长 ， 则 这 两 条 指令 被 Warp Scheduler 分 别 
调度 到 L/S 单元 和 浮 点 运算 单元 执行 后 ， 由 于 耗 时 较 
K, Warp Scheduler 志 将 Warp8 线 程 卸 下 ， 然 后 装载 
Warp2 的 第 42 条 指令 开始 运行 。 在 Warp 之 间 切 换 的 
代价 远 低 于 耗 时 较 长 的 指令 执行 过 程 ， 所 以 即便 以 
单条 指令 为 粒度 切换 Warp， 仍 然 可 以 充分 提升 计算 
吞吐 量 。 

Warp 内 的 线程 数量 与 SM 内 部 运算 单元 的 数量 之 
间 并 没有 直接 联系 。 每 个 Warp 被 定义 为 32 线 程 ， 并 不 
意味 着 SM 内 部 的 运算 单元 也 必须 为 32， 实 际 上 ， 后 
者 可 以 为 16、32 或 者 48， 这 些 数量 曾经 在 NVIDIA 的 
多 个 不 同型 号 的 GPU 上 都 出 现 过 。 另 外 ， 即 便 是 每 个 
SM 恰好 为 32 运 算 单元 的 GPU 型 号 ， 其 也 并 不 是 将 一 
个 Warp 内 32 线 程 一 次 性 调度 到 这 32 个 单元 上 执行 的 ， 
而 是 利用 两 个 时 钟 周期 ， 在 第 一 个 时 钟 周期 调度 16 个 
线程 (Half Warp) 到 16 个 单元 上 执行 ， 另 外 16 个 单元 
会 被 第 二 个 Warp Scheduler 从 另外 一 个 Warp 中 调度 其 
Half Warp 上 来 运行 。 在 第 二 个 时 钟 周期 内 ， 两 个 Warp 
Scheduler 各 自 调度 各 自 Warp 的 另 一 半 Half Warp 的 16 个 
线程 到 各 自 的 16 个 单元 上 运行 。 

这 种 编排 和 调度 方式 看 上 去 让 人 完全 无 法 理解 。 
这 种 设计 背后 的 原因 主要 有 3 点 。 

(1) SM 内 部 有 多 种 计算 资源 ，CUDA Core 只 是 
其 中 一 种 ， 其 他 还 包括 Load/Stor 单 元 、 特 殊 运算 单元 
(SFU) 与 用 于 插值 计算 的 SFU，L/S 单 元 以 及 SFU 的 
数量 要 少 于 CUDA Core 的 数量 。 而 线程 中 的 每 个 指令 
只 能 做 一 件 事情 ， 其 要 么 利用 CUDA Core 来 做 通用 运 
Я, 要么 用 SFU 来 做 特殊 计算 ,或 者 访 存 (访问 纹理 
或 者 其 他 存储 器 ) 。 那 么 ， 在 这 条 指令 执行 期 间 ， 
其 他 运算 部 件 就 处 于 闲置 状态 ， 这 显然 不 划算 。 如 
果 能 够 让 一 个 SM 同时 并 行 运行 两 个 线程 ， 那 么 就 可 
以 充分 利用 这 些 资源 。 于 是 在 图 9-74 中 你 可 以 看 到 两 
个 Warp Scheduler， 这 相当 于 一 个 SM 本 质 上 是 一 个 双 
核心 处 理 器 ， 而 每 个 核心 拥有 16 个 ALU 运 算 单元 ， 其 
他 运算 部 件 两 个 核心 共享 。 这 样 设计 之 后 ， 如 果 两 个 
并 行 的 Half Warp 中 当前 的 指令 恰好 都 需要 访问 CUDA 
Core， 此 时 相 比 用 一 个 Warp Scheduler 直 接 一 次 性 调度 
32 线 程 到 所 有 32 运 算 单元 上 来 讲 ， 没 有 获得 什么 增益 ; 
但 是 如 果 Warp 的 指令 是 访问 SFU， 由 于 SFU 的 数量 少 于 
CUDA Core， 比 如 只 有 8 个 SFU， 那 么 32 个 线程 就 需要 
分 4 次 被 调度 到 8 个 SFU 上 执行 ， 而 此 时 ， 其 他 单元 就 闲 
置 了 4 个 周期 ， 如 果 有 第 二 个 Warp Scheduler 调 度 其 他 
Warp 到 CUDA Core 上 执行 ， 哪 怕 只 调度 Half Warp 到 16 
个 CUDA Core 上 执行 ， 这 也 比 全 部 闲置 要 强 。 

(2) 运算 单元 的 指令 译 码 器 译 码 一 次 ， 运 算 单 
元 的 核心 分 两 次 执行 两 批 线程 的 同一 条 指令 。 这 样 设 
计 可 以 让 指令 译 码 单元 运行 在 1/2 运 算 单 元 时 钟 频率 


下 ， 译 码 单元 就 可 以 使 用 频率 更 低 、 漏 电流 更 小 的 更 
低 功 耗 的 晶体 管 ， 从 而 节省 功 耗 和 成 本 。 

G) Warp 内 线程 数 大 于 SM 内 的 Core 数 量 ， 这 样 
可 以 在 访 存 时 节约 时 间 。Half Warp 被 调度 执行 后 ， 如 
果 其 发 出 了 访 存 请 求 ， 则 L/S 单元 批量 取 回 整个 Warp 
而 不 是 仅 取 回 Half Warp 所 需 的 数据 ， 这 样 在 另 一 半 
Warp 下 次 被 调度 时 可 以 直接 缓存 命中 ， 节 约 了 时 间 。 
这 种 做 法 叫 作 Coalescing (Bh) 。 

NVIDIA 代 号 GF104 的 GPU 相 比 GF100 在 每 个 SM 中 
多 了 16 个 CUDA Core， 如 图 9-75 所 示 。 这 下 有 点 意思 
了 ， 如 果 每 个 Warp Scheduler 每 次 只 能 调度 Half Warp, 
那么 意味 着 这 多 出 来 的 16 个 Core 根 本 无 法 被 利用 。 解 
决 这 个 问题 的 方法 可 以 是 再 增加 一 个 Warp Scheduler, 
但 是 这 样 做 成 本 较 高 。 另 一 种 妥协 做 法 是 ， 让 一 个 
Warp Scheduler 可 以 并 行 发 射 多 条 指令 ， 也 就 是 多 发 射 
技术 〈 此 处 可 以 回顾 本 书 第 4 章 内容 ) 。 

NVIDIA 在 GF104 架 构 中 设计 了 类 似 CPU 中 的 指 
令 多 发 射 的 超标 量 执行 功能 。 这 意味 着 ， 即便 是 同 
一 个 线程 的 先后 多 个 指令 ， 如 果 这 些 指令 访问 不 同 的 
运算 单元 ， 则 Warp Scheduler 直 接 将 这 些 指令 并 行 调 
度 到 各 自 运算 单元 上 执行 ， 从 而 实现 了 指令 级 并 行 ， 
也 就 是 ILP (Instruction Level Parallel， 见 本 书 第 6 章 开 
头 ) 。 而 在 这 之 前 ，GPU 内 部 实现 的 仅仅 是 线程 级 并 
行 。 图 中 左 侧 所 示 为 GF100 架 构 的 调度 模型 ， 利 用 两 
个 Warp Scheduler， 每 个 仅 做 单 发 射 。 而 右 侧 GF104 的 
Warp Scheduler 可 以 判断 指令 的 依赖 关系 以 及 当前 运算 
单元 是 否 已 被 占用 ， 从 而 做 多 发 射 。 相 应 地 ，GF104 的 
驱动 程序 或 者 CUDA 编 译 器 在 编译 Pixel/Vertex/Compute 
Shader 以 及 CUDA 程 序 时 ， 可 以 从 编译 层面 对 超标 量 进 
行进 一 步 优 化 。 这 样 ，GF104 的 计算 资源 利用 率 会 从 
GF100 的 2/6， 提 升 到 最 高 4/7、 最 差 2/7。 

有 理由 相信 ， 随 着 GPU 被 越 来 越 多 地 用 来 做 通用 
计算 ， 以 及 芯片 工艺 制程 的 提升 ，GPU 内 部 的 设计 思 
路 会 越 来 越 多 地 引入 CPU 的 一 些 思路 ， 引 入 一 些 更 复 
杂 、 优 化 的 控制 逻辑 进去 。 


9.5.3.5 ” ”CUDA 程序 的 内 存 架构 


如 图 9-76 所 示 为 GPU 内 部 对 CUDA 程 序 的 内 存 组 
织 方式 。 每 个 线程 运行 时 独占 一 个 运算 单元 ， 每 个 
运算 单元 拥有 各 自 的 Register File (Я). Я 
不 同型 号 的 GPU， 通 常 每 个 SM 上 的 寄存 器 堆 大 小 在 
几 十 到 数 百 KB 容量 ， 同 一 时 刻 运 行 在 每 个 SM 上 的 
所 有 线程 均 分 这 个 寄存 器 堆 。 默 认 情 况 下 CUDA 编 译 
器 会 尽量 把 变量 或 者 数据 结构 分 配 到 寄存 器 堆 中 存 
储 ， 但 是 如 果 数 据 结构 太 大 ， 或 者 没有 指定 元 素数 
量 的 数组 ， 则 这 些 数据 会 被 放置 到 的 Local Memory 
中 存储 。Local Memory 位 于 显卡 板 载 显 存 中 ， 访 问 
速度 相对 较 慢 ， 但 是 可 以 被 部 分 缓存 到 L2 以 及 SM 的 
L1 缓 存 中 。 每 个 线程 拥有 各 自 的 Local Memory, Н 
己 独 占 访问 。 
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图 9-75 GF100 (Æ) 和 GF104 CE) 核心 内 部 的 线程 调度 架构 示意 图 
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每 个 SM 中 还 包含 几 十 到 上 百 KB 的 Shared 
Memory， 其 被 用 于 同一 个 Block 内 部 的 所 有 线程 
之 间 通 过 共享 内 存 方式 通信 和 同步 (比如 通过 
SyncThreads0 函 数 ) 。 由 于 多 个 Block 可 以 轮流 运行 在 
一 个 SM 上 ， 每 个 Block 均 分 SM 上 的 Shared Memory, 
每 个 Block 最 大 可 分 得 48KB (该 数值 视 CUDA 版 本 和 
GPU 型 号 不 同 可 能 有 所 不 同 ) 。 由 于 Shared Memory 
位 于 SM 片 内 的 SRAM 中 ， 与 L1 缓 存 速 度 相 同 ， 所 以 
其 访问 速度 仅 次 于 寄存 器 堆 。Shared Memory 还 有 个 
天 然 的 优势 是 其 内 部 采用 了 多 个 Bank， 这 些 Bank 可 以 
并 行 访问 。 所 以 在 向 Shared Memory 中 存放 数组 时 ， 
或 者 访问 Shared Memory 时 ， 如 果 能 够 遵循 这 种 规 
律 ， 就 可 以 获得 更 高 的 并 行 性 。 

Global Memory Local Memory 一 样 也 位 于 片 外 
板 载 显存 中 ， 被 所 有 线程 共享 使 用 ， 其 可 以 部 分 被 组 
存 到 L2 或 者 L1 缓 在 中 。 


cudaMalloc 函 数 分 配 的 显存 会 落 入 Global 
Memory 区 域 ， 多 个 核 函 数 之 间 如 果 需 要 通信 ， 也 
利用 Global Memory。 核 函数 运行 完毕 的 最 终结 果 
也 会 被 写 入 Global Memory， 然 后 经 由 cudaMemcpy 
函数 复制 到 Host 主 存 。 核 函数 运行 时 如 果 进 行 子 函 
数 调用 ， 会 用 到 Local Memory， 一 些 局 部 变量 也 被 
放 到 Local Memory 中 。 


位 于 板 载 显存 中 的 还 有 Texture Memory (纹理 
存储 ) 和 Constant Memory (常量 存 储 ) ， 这 两 部 
分 在 SM 内 分 别 设 有 独立 的 缓存 。Texture Memory 只 
Ж (新 GPU 和 CUDA 版 本 支持 可 读 写 ) ， 每 个 SM 
上 的 纹理 缓存 大 小 在 12KB 一 48KB 之 间 ;， Constant 
Memory 只 读 ， 最 大 为 64KB， 每 个 SM 上 的 常量 组 
存 大 小 在 8SKB/10KB Texture Memory 和 Constant 
Memory 在 显存 中 的 位 置 并 不 是 固定 的 ， 而 是 动态 
的 ， 也 就 是 纹理 数据 复制 到 哪里 ， 哪 里 就 变 成 了 
Texture Memory。 程 序 在 复制 完 数据 后 还 需要 调用 
cudaBindTexture()〔 该 函数 用 于 告诉 GPU 某 块 显存 存 
放 的 是 纹理 数据 ， 从 而 触发 GPU 将 其 缓存 到 纹理 缓 
存 以 提升 性 能 ) 等 函数 才能 正确 使 用 纹理 内 存 。 纹 
理 内 存在 CUDA 中 的 使 用 场景 见 下 文 介绍 。 
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每 个 SM 上 的 工 1 缓存 容量 在 几 十 KB 级 别 ， 每 个 
GPU 芯片 上 的 集中 L2 缓 存 容 量 大 概 在 几 MB 左右 。 不 
同型 号 的 GPU 容量 不 同 。 

在 程序 中 可 以 用 _share 、 device 、_constant Ж 
键 字 修饰 从 而 手动 控制 将 对 应 数据 结构 分 配 到 何 种 存 
储 器 类 型 中 。 比 如 _shared _ int a[SIZE] 表 示 将 数组 a 分 
配 到 Shared Memory 中 存放 ， 这 样 访问 该 数组 的 速度 将 
会 比较 快 。_device 、_constant 关键 字 分 别 表示 让 编译 
器 将 对 应 数据 结构 分 配 到 Global 和 Constant Memory。 
一 般 来 讲 ， 存 储 器 的 速度 排序 为 ， 寄 存 器 堆 > Shared 
Memory > L1/Texture/Constant Cache > L2 Cache > Local/ 
Global/Texture/Constant Memory， 如 图 9-77 所 示 。 

纹理 内 存 如 果 用 好 了 会 得 到 很 高 的 性 能 。 其 原 
因 有 三 个 。 第 一 个 原因 是 纹理 内 存在 SM 内 部 有 专用 
纹理 缓存 ， 可 以 提升 性 能 。 第 二 个 原因 是 纹理 缓存 的 
组 织 形式 是 按照 二 维 块 〈Tile， 见 第 8 章 图 8-268) Ж 
组 织 ， 而 不 是 像 传统 缓存 那样 按照 线性 映射 编排 ， 这 
样 做 是 为 了 适 配 纹理 采样 时 读 取 某 纹 素 四 周 相 邻 纹 素 
的 这 种 特殊 行为 。 其 他 类 似 访 存 行为 的 通用 计算 场景 
〈 如 图 9-78 所 示 ) 如 果 使 用 纹理 内 存 来 存放 待 处 理 的 
数据 ， 那 么 运行 时 的 缓存 命中 率 相 比 传统 缓存 〈 如 果 
将 数据 放 到 Global 或 者 Local Memory 中 ， 则 将 会 使 用 
SM 内 的 L1 缓 存 ， 数 据 为 传统 线性 编排 方式 ) 有 更 高 
的 命中 率 ， 这 进一步 优化 了 性 能 。 这 类 场景 典型 的 有 
自 定义 图 像 处 理 场景 ， 比 如 缩放 、 压 缩 、 模 糊 化 、 锐 
化 等 ， 其 底层 行为 也 是 对 像素 进行 双 线 性 、 三 线性 
等 采样 过 滤 ， 此 时 没有 必要 走 Direct3D API， 直 接 走 
CUDA 更 直接 ， 此 时 就 可 以 利用 纹理 内 存 来 存放 待 处 
理 数 据 以 获得 更 高 性 能 。 
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Thread 1 图 
Thread 2 а 
Thread 3 ЕБ тј] 


图 9-78 有 类 似 访 存 行为 的 程序 


第 三 个 原因 是 ，CUDA 程 序 并 不 仅仅 可 以 利用 
GPU 内 部 的 Unified Shader Core 来 处 理 数 据 ， 其 也 可 
以 利用 TMU 纹 理 单元 来 硬 加 速 处 理 数据 ， 此 时 必须 
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图 9-77 各 类 存储 类 型 综合 对 比 
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将 待 处 理 的 数据 放 入 纹理 内 存 。TMU 内 的 算 力也 是 
很 强 的 ， 不 用 真 的 很 浪费 ， 比 如 上 面 这 些 图 像 处 理 
场景 ， 其 底层 机 制 基本 上 与 3D 演 染 管线 中 期 的 纹理 
过 滤 流 程 类 似 ，TMU 就 是 这 类 运算 的 天 然 加 速 器 。 
在 CUDA 中 利用 纹理 内 存 ， 需 要 调用 一 些 对 应 函数 做 
准备 ， 比 如 cudaBindTexture() 等 。 另 外 ， 可 以 通过 参 
数 指定 让 CUDA 在 取 纹 理 数 据 时 采用 何 种 纹理 过 滤 
方式 ， 比 如 点 采样 cudaFilterModePoint 或 者 线性 采样 
cudaFilterModeLinear， 具 体 通过 下 面 的 粗 体 代 码 来 指 
定 。 此 外 还 可 以 指定 通过 mipmap 方 式 来 过 滤 。 指 定 这 
些 参数 之 后 ，TMU 单 元 就 可 以 按照 参数 的 要 求 执行 对 


// Specify texture object parameters 
struct cudaTextureDesc texDesc; 

memset (&texDesc, 0, sizeof (texDesc)); 
texDesc.addressMode [0] cudaAddressModeWrap; 
texDesc.addressMode[1] = cudaAddressModeWrap; 
texDesc.filterMode cudaFilterModeLinear; 
texDesc.readMode = cudaReadModeElementType; 
texDesc.normalizedCoords = 1; 


texDesc.mipmapFilterMode = xxxxx 
目前 ，NVIDIA 用 算 力 指数 来 衡量 其 旗下 的 GPU 
的 运算 能 力 。 如 图 9-79 和 图 9-80 所 示 为 各 种 算 力 指数 


Кеа y 3 ШК 
应 的 纹理 过 滤 计算 并 返回 数据 。 对 应 的 GPU 的 资源 规格 和 限制 一 览 。 

Compute Capability 10 11 1.2 1.3 2.0 2.1 3.0 3.5 
SM Мегзіоп | ѕт 101 sm_l11 sm_12 | sm_13 | sm_20 sm_21 | sm_30 _ зт 35 
Threads / Warp 32 | 32 32 32 32 32 32 32 
Warps / Multiprocessor 24| 24. 32| 32 4 48 в“ ва. 
Threads / Multiprocessor 768 | 768 1024 1024 1536 1536 2048 2048 
Thread Blocks / Multiprocessor gi 8 8 ГИ s s| 16 16 
Мах Shared Memory / Multiprocessor (bytes) 16384 16384 | 16384 16384 49152 49152 49152 49152 
Register File Size — 8192 | 8192 16384 16384 32768 | 32768 65536 65536 
Register Allocation Unit Size 256 256 512 512 64 ва. 256 256 
Allocation бгапиюту | block block block | block | warp warp warp warp 
Max Registers / Thread 124 124 124 124 63 63 63 255 
Shared Memory Allocation Unit 5ге ___ 512 | 52 зр! эр | ів 128 256 256 
Warp allocation granularity 2 2 2 2 2 z 4 4 
Max Thread Block Size 512 512 512 512 | 1024 | 1024 1024 1024 
Shared Memory Size Configurations (bytes) | 16384 16384 | 16384 | 16384 | 49152 | 49152 49152 49152 
[note: default at top of list] 16384 16384 16384 16384 
I 32768 32768 
Warp register allocation gronulorities | | 6 64 256 256 

[note: default at top of list] 128 128 

图 9-79 各 种 算 力 指数 对 应 的 GPU 的 资源 规格 和 限制 一 览 〈1) 
Compute Capability Compute Capability | 

Technical Specifications | 3.03.2 3.5 | 37 50 [525.3 | 60] 61 | 62] 7.0 
Maximum number of resident Maximum number of threads й 
grids рег device (Concurrent 16 128 || per block 
Kernel Execution) Warp size з: 

Maximum dimensionality of 3 Гана Гә) 
grid of thread Боска blocks per multiprocessor Је а 
Maximum x-dimension of a grid Ma ыа 
of thread blocks 让 “ 
Maximum y- ог z-dimension of = 
а grid of thread blocks Maximum number of resident 2048. 
threads per multiprocessor 
| Compute Capability Number of 32-bit registers per “к 128 “к 
Technical Specifications | 3.0 3.2 | 3.5 | 3:7 5] 52 [5.3 60 [6.1 | 62 | 7.0 || "чене * 
Maximum number of 32-bit 
ип dimensionality of 
тош ~ атола |a= мык [ж мк [=s 
ог Maximum number of 32-bit 
тыт x or y- dimension of 1024 registers per thread = Е: 

Maximum amount of shared па | ea |ә % | ба | % 
ee “ memory per multiprocessor ма кв | ke | кв | 648 | кь | ke | ke 
Maximum number of threads 
Feiron 1024 
Warp size зї 
Maximum number of resident Е = 
blocks per multiprocessor 
Maximum number of resident > 
warps рег multiprocessor 
Maximum number of resident юе 
threads per multiprocessor 
Number of 32-bit registers per 728 
multiprocessor мк K ик 
Maximum number оѓ 32-bit 
жоу || e fe] Гәр 
Marum number зга | 加 Ha 
eene 图 9-80 各 种 算 力 指数 对 应 的 GPU 的 各 种 资源 规格 和 
Maximum amount of shared аа па а | 6] ox | % | % |% 
memory per multiprocessor кв | ко | кв кв | кв | кв 限制 一 览 (2) 
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9.5.3.6 基于 CUDA 的 PhysX 库 效果 


Fa 
基于 NVIDIA GPU 的 CUDA 加 速 计算 越 来 越 流 5 
行 ， 在 各 行 各 业 得 到 了 广泛 应 用 。NVIDIA 自 家 搞 的 4 
物体 碰撞 物理 计算 加 速 库 PhysX 本 身 就 是 基于 CUDA R 
实现 的 (如 图 9-81 所 示 ) 。 游 戏 程序 调用 PhysX 库 中 Ë 
的 物理 碰撞 模拟 算法 ， 将 模型 的 顶点 坐标 位 置 利 用 Ë 
CUDA 加 速 计算 出 来 ， 返 回 到 Host 主 存 ， 然 后 游戏 再 л 
走 D3D 泻 染 流程 ， 将 物理 碰撞 变形 之 后 的 拥有 新 项 点 Ë 
位 置 的 模型 泻 染 出 来 。 物 理 碰撞 特效 非常 适合 使 用 并 Ë a 
行 计算 来 加 速 。 比 如 有 一 千 颗 冰晶 ， 游 戏 中 的 角色 朝 $ Е 
某 个 方向 释放 后 ， 每 颗 冰晶 都 有 个 初速 度 和 模拟 阻力 Ёё = 
(甚至 还 可 以 引入 当时 的 环境 风速 ) ， 然 后 针对 每 一 Ë 
颗 冰 蝇 计 算 其 下 一 个 时 间 单位 (比如 决定 该 物理 特 н 
效 动画 流畅 度 为 每 秒 30 帧 ， 那 么 每 个 时 间 单位 就 是 全 
33 ms) 所 在 的 位 置 ， 这 个 过 程 所 使 用 的 算法 再 简单 ° 
不 过 ， 就 是 牛顿 运动 定律 ， 根 据 合力 求 时 间 t 后 的 位 в 
ВИ. ШЖ, RRE EIEH Ë 
标 算出 发 生 碰撞 的 时 间 点 和 位 置 ( 这 个 过 程 被 称 为 碰 R 
接 检测 ) ， 然 后 在 该 时 间 点 针对 该 粒子 做 反弹 计算 ， Ы У 
至 于 该 过 程 中 所 利用 的 公式 ， 我 想 任何 一 个 高 中 毕业 Ë y 
的 朋友 都 做 过 小 球 以 一 定 入 射 角 撞墙 反弹 的 物理 题 ， Ë ба 
不 再 袭 述 〈 其 实 冬瓜 哥 已 经 忘 了 ， 尴 众 一 下 ) 。 经 过 Ë É 
大 量 运 算 之 后 ， 这 些 冰晶 颗粒 就 按照 物理 规律 运动 ， РЕ 
产生 震撼 的 物理 模拟 特效 。 至 于 如 何 将 这 个 过 程 写成 š а 
CUDA 程 序 ， 大 家 可 以 自行 思考 ， 无 外 乎 9.5.3 节 中 列 БЕ 
出 的 基本 CUDA 函 数 和 编程 方式 。 = š 
= ) - É = 
JSE 顺序 (示意 ) БЕ = 
и“ Еле о = 
И —v< R 
00000056 cudaEventRecord ~ 
由 -资源 00000055 cudaEventQuery Ë 
00000058 cudafree 
00000095 cudaMallocHost 
00000091 cudMalloc 


图 9-81 ”PhysX 库 相关 dl 文件 调用 了 CUDA 库 


对 于 流体 、 刚 体内 部 的 变形 模拟 ， 则 需要 将 该 
物体 内 部 粒子 化 ， 将 其 模拟 成 用 多 个 小 物体 来 堆 出 一 
个 大 物体 。 当 大 物体 收 到 外 力 时 ， 根 据 力 的 大 小 和 方 
向 ， 计 算出 这 个 力 会 对 其 内 部 小 物体 产生 的 力 的 分 解 
传递 方向 ， 然 后 分 别 计算 每 一 个 小 物体 的 运动 轨迹 ， 
得 出 下 一 步 的 位 置 。 还 记得 前 文 9.1.3 节 中 描述 的 算法 
Z? 整个 过 程 如 图 9-82 所 示 。 

如 果 你 想 让 物理 特效 更 加 流畅 ， 比 如 帧 率 达 到 每 
秒 60 帧 〈 注 意 ， 动 画 生成 的 帧 数 、 演 染 的 帧 数 、 屏 幕 
刷新 率 的 帧 数 这 三 者 毫 无 联系 ， 各 自 独 立 ， 详 见 第 8 
章 图 8-243 下 方 的 提示 ) ， 那 么 你 需要 计算 的 小 物体 
位 移 步 进 就 是 1/60=0.017 秒 。 剩 下 的 大 家 利用 高 中 物 
理 知识 就 可 以 计算 了 ， 利 用 冲 量 =ft 这 个 公式 ， 算 出 一 
定时 间 后 物体 的 位 置 ， 然 后 写 入 顶点 坐标 ， 将 顶点 模 
型 下 发 到 GPU 泻 染 。 


: 每 个 粒子 对 应 一 个 线程 ，10 飞 秒 内 近似 受 力 恒定 不 变 ， 并 行 算出 10 飞 秒 后 每 个 粒子 的 位 置 、 新 的 合力 ， 再 以 


量 越 多 ， 力 学 模型 公式 越 复杂 精准 ， 模 拟 的 越 精细 ， 越 接近 真实 ， 计 算 时 间 也 越 长 


模型 
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提示 > 


如 果 仔 细 思 考 一 下 会 发 现 ， 这 种 对 刚体 、 软 体 或 
者 流体 的 作用 模拟 过 程 ， 与 蛋白 质 折 登 过 程 其 实 是 有 
区 别 的 。 蛋 白质 折 登 过 程 是 大 分 子 中 所 有 原子 本 身 同 
时 在 遗 受 各 个 方向 、 不 平衡 的 力 ， 而 对 物体 、 流 体 的 
作用 ， 是 不 同 的 过 程 ， 该 物体 本 来 是 静止 的 ， 其 内 部 
粒子 遭受 的 力 原本 是 平衡 的 。 在 其 表面 的 某 个 或 者 某 
些 粒子 受到 外 力 之 后 ， 这 个 力 其 实 是 需要 一 步 步 地 被 
传递 到 其 内 部 各 个 粒子 上 的 ， 这 个 力 的 传递 速度 并 不 
是 光速 ， 而 是 需要 一 定时 间 的 。 经 过 实测 ， 一 根 5000 
米 的 钢 制 物体 ， 力 从 一 头 传递 到 另 一 头 需要 一 秒 的 时 
间 ， 不 同 介质 力 的 传递 速度 也 各 不 相同 。 但 是 鉴于 游 
戏 中 的 物体 大 概 都 不 会 超过 1 米 ， 那 么 其 内 部 应 力 的 
传递 时 间 会 在 0.0002 秒 量 级 上 ， 要 做 到 理论 最 大 流畅 
度 ， 动 画 帧 率 应 为 110.0002=5000 帧 /8。 此 时 ， 无 法 进 
行 并 行 计算 ， 因 为 力 是 一 步 步 囊 行 在 内 部 粒子 之 间 传 
递 的， 只 能 够 囊 行 来 算 ， 那 就 没有 必要 了 。 如 果 将 帧 
率 限制 到 60 帧 ， 那 么 力 的 作用 时 间 为 0.017 秒 ， 在 这 个 
时 间 范 围 内 ， 外 力 可 以 被 等 效 认为 瞬间 传递 到 物体 内 
部 所 有 粒子 上 ， 当 然 ， 每 个 粒子 受到 的 力 的 大 小 、 方 
向 都 会 不 同 ， 越 远 处 的 受 力 越 弱 ， 因 为 力 在 传递 过 程 
中 被 按照 角度 分 解 掉 了 ， 可 以 设置 一 个 最 远 处 的 质点 
并 忽略 该 质点 后 续 的 力 的 传递 。 这 样 ， 就 可 以 预先 算 
出 所 有 粒子 受 的 力 ， 然 后 让 所 有 粒子 一 起 并 行 运动 ， 
实现 并 行 计 算 。 而 对 于 人 脑 的 辨识 率 而 言 ， 这 种 精度 
已 经 远 远足 够 了 。 


在 游戏 历史 上 ， 曾 经 有 多 款 游戏 调用 了 PhysX 实 
现 了 真实 的 物理 效果 ， 比 如 《和 圣 域 2》 РАН 
(Mafia П) ОТАН) 《蝙蝠 侠 》 系 列 ( 烟 雾 和 布 
料 互动 ) 《地 铁 》 系 列 〈 粒 子 碰撞 ) 《 雪 域 危机 》， 
以 及 《爱丽 丝 梦游 仙境 》 〈 两 款 流体 物理 效果 少 有 的 
游戏 ) 《 镜 之 边缘 》 (布料 碰撞 互动 ) 《幽灵 行动 》 
(粒子 碰撞 ) 等 。 其 中 《 圣 域 2》 对 PhysX 达 到 了 小 
目的 程度 ， 对 于 当年 的 显卡 在 演 染 该 游戏 时 当然 会 力 
不 从 心 ， 但 是 时 隔 数 年 之 后 的 显卡 则 可 以 特效 全 开 以 
?2k 分 辨 率 下 达到 70 帧 以 上 的 演 染 性 能 ， 冬 瓜 哥 甚 是 欢 
欣 。 写 到 这 里 ， 冬 瓜 哥 不 由 自主 又 打开 了 PC 机 载 入 
《 圣 域 2》 进 去 享受 了 一 下 里 面 的 风景 ， 以 及 令 人 心 
旷 神 怡 的 物理 特效 。 如 图 9-83 所 示 ， 在 GTX980 显 卡 
强悍 算 力 的 支撑 下 ， 人 物 脚下 的 火 圈 在 地 上 留 下 了 按 
照 真实 物理 相互 作用 的 火星 拖 尾 ， 火 圈 发 出 的 热风 将 


地 上 的 石子 、 火 星 等 向 外 吹 ; 大 量 的 〈 据 冬瓜 哥 观察 
起 码 有 数 千 个 ) 魔法 冰晶 颗粒 被 爆发 出 来 碰 到 场景 中 
的 物体 上 反弹 并 相互 碰撞 ， 然 后 按照 物理 规律 运动 掉 
落 并 堆积 在 地 上 ; 被 风 刊 起 的 地 上 数 百 片 落叶 随 风 飘 
动 下 落 ; 人 物 走路 驱赶 起 地 上 的 石子 和 落叶 ， 所 有 石 
子 /落叶 都 会 有 投影 ， 所 有 的 石子 落叶 都 可 以 按照 物理 
规律 自 旋 转 。 而 如 果 关闭 PhysX 特 效 ， 石 子 、 落 叶 和 
冰晶 都 不 会 出 现 。《 和 圣 域 2》 一 度 让 冬瓜 哥 感觉 没有 
物理 特效 的 游戏 都 索然 无 味 。 

值得 一 提 的 是 ，PhysX 可 以 被 配置 为 使 用 CPU+ 软 
件 方式 来 计算 。 但 是 在 冬瓜 哥 的 Intel 酷 害 i7 CPU F, 
使 用 软 计算 运行 圣 域 2， 当 控制 游戏 角色 放出 冰晶 魔 
法 时 ， 此 时 画面 已 经 不 是 每 秒 几 帧 的 帧 率 了 ， 而 是 
几 秒 一 帧 ， 此 时 显卡 基本 处 于 闲置 状态 ，CPU 使 用 率 
100%。 然 而 ，CPU 就 算 忙 得 满 头 汗 也 赶不上 显卡 弹 
指 一 挥 间 的 性 能 ， 游 戏 画 面 帧 率 成 了 名 副 其 实 的 幻灯 
片 速度 。 而 且 软 算法 考虑 到 CPU 的 算 力 ， 对 物理 效果 
做 了 大 幅 简 化 ， 无 论 是 粒子 数量 还 是 排 布 的 凌乱 程度 
上 ， 真 实 度 差 了 一 大 截 。 

目前 一 些 主流 3D 游 戏 大 作 中 多 少 都 使 用 了 物理 特 
效 ， 只 不 过 并 没有 达到 像 《 圣 域 2》 那 样 的 滥用 程度 ， 
基本 都 是 针对 少数 物体 实现 物理 特效 ， 比 如 地 上 的 几 
个 木 桶 、 木 棍 等 ， 也 就 是 大 块 物体 与 主角 之 间 ， 以 及 
物体 相互 之 间 的 作用 ， 而 并 不 是 数 千 个 小 粒子 之 间 相 
互 作用 。 此 时 牵扯 到 的 运算 量 相对 较 小 ， 因 为 同一 个 
物体 其 实 只 需要 对 其 重心 做 物理 模拟 即 可 ， 包 括 平移 
以 及 自身 旋转 力矩 的 计算 ， 以 目前 的 CPU 算 力 ， 计 算 
上 述 物理 碰撞 模拟 过 程 时 的 性 能 还 是 可 以 接受 的 。 

可 惜 ，《 圣 域 3》 成 了 快餐 游戏 ， 失 去 了 探索 的 
乐趣 ， 也 没有 了 之 前 的 PhysX 效 果 。 请 问 还 会 有 《 圣 
14) Z? 期 待 中 ， 期 待 滥用 PhysX 的 回归 ! 

这 里 可 能 会 有 个 疑惑 ， 既然 GPU 已 经 将 新 的 顶点 
位 置 计算 好 了 ， 为 何不 能 直接 在 GPU 内 部 将 其 输送 给 
3D 泻 染 流程 的 入 口 模块 呢 ? 没有 必要 先 把 结果 复制 回 
主 存 ， 然 后 再 次 从 主 存 复 制 到 显存 。 是 的 ， 这 个 过 程 
其 实 是 可 以 优化 的 。 如 图 9-84 所 示 就 是 经 过 优化 之 后 
的 流程 。Host 端 有 3 个 队列 (只 是 抽象 而 言 ， 实 际 上 
可 能 会 有 很 多 不 同类 型 、 数 量 的 队列 ) : Copy Queue 
用 于 下 发 数据 复制 命令 ， 在 GPU 和 Host 之 间 双 向 复制 
数据 ; Compute Queue 用 于 Host 对 GPU 下 发 通用 计算 类 
的 任务 ; 3D Queue 则 用 于 下 发 3D 泻 染 类 任务 。GPU 内 
部 也 可 以 抽象 成 3 个 工作 引擎 : 复制 引擎 (物理 上 就 
是 DMA 控 制 器 ) 、 计 算 引 擎 (通用 计算 核心 ) 和 3D 


图 9-83 ”PhysX 物 理 加 速 库 以 及 游戏 《 圣 域 2》 中 的 PhysX 特 效 截图 
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引擎 (通用 计算 核心 + 纹理 / 栅 格 化 等 硬 加 速 模块 》。 
如 图 9-84 右 侧 所 示 为 这 些 引擎 在 内 部 相互 协作 的 流程 
示意 图 。 首 先 Host 端 将 需要 运算 和 演 染 的 数据 复制 到 
GPU， 然 后 复制 引擎 在 复制 完 数 据 之 后 通知 3D 引 擎 做 
初步 的 预 处 理 ， 处 理 完 后 3D 引 擎 通知 计算 引擎 开始 进 
一 步 计算 ， 后 者 计算 完毕 之 后 通知 3D 引 擎 ， 此 时 数 
据 依然 在 显存 中 ， 无 须 复制 到 主 存 。 同 时 ， 复 制 引擎 
会 继续 复制 一 些 用 于 泻 染 的 素材 ， 比 如 纹理 等 ， 复 制 
完毕 后 ， 通 知 3D 引 擎 。3D 引 擎 在 拿 到 了 计算 引擎 的 
输入 数据 以 及 Host 端 的 纹理 等 数据 之 后 ， 继 续 演 染 、 
输出 。 


9.6 利用 PLD 和 ASIC 加 速 计算 


GPU 虽然 是 一 种 硬件 ， 但 是 其 依然 是 运行 软件 来 
进行 计算 的 。 这 里 的 “软件 ” 泛 指 译 码 和 执行 机 器 指 
令 来 处 理 数据 。 这 样 做 虽然 非常 灵活 ， 可 以 灵活 载 入 
任意 代码 进行 计算 ， 但 是 其 性 能 还 是 赶不上 另 一 种 计 
算 方 式 : 纯 数字 逻辑 运算 。 

计算 A+B 的 最 快速 方式 是 什么 ? 答 : Stor iA 寄 
存 器 A，Stor iB 寄存 器 B，Add 寄存 器 A 寄存 器 B № 
存 器 C，Disp 寄存 器 C。 错 ! Stor i A 寄存 器 A，Stor i 
B 寄存 器 B。 对 ! Ш? 没 道 理 ， 为 什么 没有 Add 指 令 ， 
这 两 个 数值 自己 就 相 加 了 ? 也 不 用 Disp 指 令 ， 难 道 结 
果 自 己 就 显示 出 来 了 ? 是 的 ! 你 还 挺 能 的 ， 咋 不 把 
Stor ИНФ ТЕ? 这 个 真 省 不 了 ， 数 据 还 是 要 喂 
进去 的 ， 毕 竟 运 算 单 元 不 会 自己 去 拿 数据 ， 它 只 是 加 
速 了 计算 过 程 。 

如 图 9-85 所 示 ， 左 侧 的 做 法 是 通用 CPU 的 做 法 ， 
利用 机 器 指令 中 不 同 的 字段 的 编码 来 操控 电路 不 同 的 
部 分 ， 产 生 不 同 的 路 径 和 结果 ， 很 灵活 。 右 侧 则 是 专 
用 轴 辑 的 做 法 ， 不 需要 是 使 用 指令 ， 只 要 给 出 输入 ， 
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就 得 出 固定 的 输出 。 这 样 就 省 掉 了 取 指 令 和 译 码 的 环 
节 ， 但 是 也 极度 不 灵活 ， 这 个 方法 只 能 完成 固定 模式 的 
计算 ， 比 如 图 中 的 加 法 ， 但 是 其 运算 速度 是 最 快 的 。 

可 以 看 出 ， 这 种 加 速 计算 方式 并 非 通过 将 数据 分 
割 然后 用 多 个 核心 并 行 处 理 来 实现 加 速 ， 而 是 致力 于 
降低 处 理 时 延 来 提升 性 能 ， 其 代价 是 失去 了 灵活 度 ， 
只 能 执行 预先 固定 好 的 算法 。 而 传统 走 代 码 的 灵活 
方式 本 质 上 是 用 指令 来 控制 电路 将 数据 导入 通用 大 块 
逻辑 中 对 应 本 次 运算 所 需 的 那个 逻辑 单元 从 而 完成 计 
算 ， 利 用 指令 来 精细 挑选 可 输出 。 其 实 我 们 在 第 5 章 
的 图 5-36 就 介绍 过 利用 纯 数字 逻辑 完成 计算 的 例子 ， 
可 以 回顾 一 下 那个 简易 计时 器 的 硬件 实现 。 

图 9-86 右 侧 的 场景 其 实 并 不 是 速度 最 快 的 ， 因 为 
位 于 其 前 端的 地 址 译 码 器 、 存 储 器 等 都 是 在 时 钟 信号 
驱动 下 ， 最 快 只 能 每 个 时 钟 周期 向 加 法 器 输送 一 对 新 
数值 。 这 意味 着 该 电路 的 算 力 受 限 于 其 时 钟 频率 ， 该 
电路 的 时 钟 频率 又 进一步 受 限于 其 所 处 的 芯片 模块 时 
钟 域 的 时 钟 频 率 ， 如 果 该 时 钟 域内 有 其 他 一 些 复杂 远 
辑 限制 了 整体 时 钟 频率 ， 那 么 简单 快速 逻辑 就 会 被 拖 
累 ， 运 行 在 慢 速 时 钟 频率 下 。 

显然 ， 最 快速 的 运算 ， 是 把 时 钟 信号 和 寄存 器 去 
掉 。 如 图 9-86 左 侧 所 示 ， 将 一 块 数字 逻辑 的 输出 反馈 
到 其 输入 端 ， 此 时 该 数字 逻辑 会 不 停 地 被 自 激 运算 。 
比如 ， 如 果 这 块 逻辑 是 一 个 乘法 器 ， 那 么 它 会 不 断 累 
乘 一 直到 全 部 溢出 为 止 ， 累 乘 一 遍 的 时 延 是 这 块 逻 辑 
内 部 逻辑 门 翻转 传递 信号 的 时 间 。 但 是 实际 上 ， 由 于 
各 路 信号 反馈 到 输入 端的 到 达 时 间 有 差异 ， 最 终 在 计 
算 几 轮 之 后 输出 结果 就 会 完全 乱 掉 。 这 种 不 受 控 的 计 
算 ， 是 没有 实际 价值 的 。 引 入 寄存 器 和 时 钟 之 后 ， 就 
可 以 保障 所 有 信号 都 已 稳定 后 才 继续 运行 ， 但 是 难免 
会 引入 一 些 余 量 ， 这 些 余 量 就 产生 了 额外 的 时 延 。 

另外 ， 去 掉 寄 存 器 和 时 钟 会 导致 遇 辑 电路 无 法 
刹车 ， 它 会 一 路 跑 到 黑 ， 无 法 拿 到 中 间 数 值 。 这 就 像 


数 
加 法 器 码 
Hi 


Add ТУВА ЖНИВ ЖНС; Disp AFEC 
指令 译 码 和 控制 单元 


9-85 走 代 码 和 走 逻 辑 计算 加 法 


ES 


Ж 
2а 
вп 


фа 
w 
в 
ЕЕ ka 
м 
њ 
LLL + 


m 


图 9-86 ”对 纯 数字 逻辑 的 运行 控制 方式 
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撤 了 伪 的 野马 、 上 紧 发 条 然后 突然 抽 掉 擒 纵 器 的 机 械 “比如 计数 器 、 比 较 器 、 译 码 器 等 ， 如 图 9-87 所 示 ， 然 
表 ， 你 只 能 眼看 着 发 条 驱动 着 指针 飞快 旋转 到 停 ， 能 。 后 将 这 些 分 立 器 件 用 导线 连接 起 来 就 可 以 搭建 逻辑 
量 被 瞬间 释放 。 但 这 又 有 什么 意义 呢 ? 让 一 箱 汽油 瞬 ”电路 。 

间 爆 炸 能 够 获得 更 高 的 能 量 释放 速度 ， 但 是 却 没有 意 老板 ， 给 称 二 两 计数 器 ! 老板 : 管 够 称 ， 还 多 
义 。 而 如 果 让 汽油 在 内 燃 机 中 受 控 爆 炸 然后 将 推力 输 ”给 了 两 个 呢 ， 不 谢 ! 别 忘 了 送 个 电阻 电容 套装 ! 必须 
送 到 传统 轴 同 时 加 上 离合 装置 〈 时 钟 + 寄存 器 ) 控制 ”的 ! 如 图 9-88 所 示 。 
启 停 才 有 意义 。 所 以 需要 加 入 寄存 器 和 时 钟 机 制 来 制 于 是 你 开始 在 面包 板 〈 早 期 在 美国 ， 人 们 将 大 量 
约 信号 的 载 入 、 计 算 和 输出 过 程 ， 用 时 钟 控制 寄存 器 。 ”电子 管 固定 在 切面 包 用 的 木板 上 来 搭建 电路 ， 该 名 称 
的 瞬间 透 传 + 瞬间 锁定 ， 来 一 步 一 步 往 前 走 。 只 有 加 也 就 沿袭 至 今 ) 上 对 器 件 进行 连 线 措 建 电路 。 这 种 做 


入 寄存 器 和 时 钟 ， 才 可 以 随时 停止 输送 新 数值 信号 ， 法 对 于 一 些 极 小 规模 的 电路 搭建 非常 方便 ， 其 成 本 也 
将 中 间 值 取出 进行 判断 然后 继续 执行 或 者 重 置 。 低 。 但 是 如 果 电 路 规模 太 大 ， 这 种 做 法 则 会 变 得 不 现 
如 图 9-86 右 侧 所 示 为 将 一 块 大 逻辑 拆 分 成 多 个 小 ” 实 。 措 建 大 规模 电路 还 是 要 用 集成 度 高 的 芯片 。 
逻辑 ， 形 成 流水 线 ， 增 加 并 行 度 ， 我 们 在 第 4 章 已 经 那么 ， 有 没有 可 能 存在 某 种 芯片 ， 该 芯片 内 部 
详细 介绍 过 。 的 逻辑 门 是 可 以 重新 被 编排 的 ? 就 像 多 米 诺 骨 牌 ， 摆 


上 面 只 是 举 了 一 个 简单 的 例子 ， 如 果 运 算 逻 辑 非 | 放 成 某 种 逻辑 ， 运 行 时 推 一 下 ， 然 后 静 候 佳音 ， 这 期 
常 复杂 ， 那 么 可 以 编写 对 应 的 通用 代码 并 将 其 运行 在 。” 间 不 需要 任何 机 器 指令 ， 全 靠 逻 辑 门 自身 翻转 (骨牌 
图 9-85 中 左 侧 所 示 的 简易 CPU 上 ， 只 需要 堆砌 (或 者 。 按照 既定 方向 倒 下 ) 来 体现 出 计算 逻辑 。 如 果 要 想 换 
说 编程 》 大 量 的 机 器 指令 即 可 ， 所 以 左 侧 的 硬件 架构 — 成 另 一 种 逻辑 ， 只 需要 重新 摆 放 一 下 骨牌 的 位 置 即 
可 以 保持 统一 ， 然 后 用 软件 来 定义 该 硬件 体现 出 来 的 。 可 ， 而 不 是 把 整套 骨牌 扔 掉 再 换 一 套 新 的 。 可 以 灵活 
功能 ， 也 就 是 所 谓 软 件 定义 可 编程 》。 对 于 图 9-85 中 摆 放 芯片 内 部 的 门 电路 ， 这 听 上 去 根本 不 可 能 ， 但 是 
右 侧 的 硬件 ， 如 果 运 算 逻 辑 变 了 ， 那 么 图 中 的 加 法 器 就 ”仔细 一 想 又 简单 到 不 可 思议 。 用 晶体 管 来 控制 芯片 内 
需要 被 替换 成 新 的 运算 逻辑 ， 之 前 做 的 芯片 就 废 了 。 某 根 导线 的 开 合 ， 这 个 完全 可 以 做 到 。 虽 然 这 样 做 无 

要 想 有 足够 的 灵活 性 ， 有 个 折 中 的 办 法 是 ， 将 一 ”法 改变 芯片 内 晶体 管 的 位 置 ， 但 是 ， 如 果 预 先 准备 好 
些 常用 的 逻辑 做 成 分 立 器 件 (Discrete Component) , 大 量 灵活 排 布 的 导线 ， 以 及 设置 对 应 的 选 路 器 或 者 
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Crossbar 装 置 ， 就 可 以 只 通过 任意 改变 连 线 而 改变 晶 
体 管 的 连接 拓扑 从 而 改变 逻辑 。 

把 内 容重 新 翻 回 到 第 1 章 1.3.5 节 中 ， 为 了 照顾 你 
的 手指 ， 冬 瓜 哥 将 对 应 内 容 截 图 贴 到 了 图 9-89 中 。 我 
们 重 温 一 下 逻辑 电路 是 怎么 根据 真 值 表 写 出 来 的 ， 但 
愿 在 距离 本 书 第 1 章 一 千 页 以 后 ， 你 还 记得 这 些 可 能 已 无 
人 问津 而 冬瓜 哥 却 在 津津 乐 道 的 东西 。 

可 以 看 到 ， 任 何 逻 辑 〈 注 意 ， 是 “任何 ”， 没 
有 之 一 也 没有 例外 ) 都 可 以 表达 成 把 输入 值 或 者 反 相 
的 输入 值 相 与 成 乘积 项 ， 然 后 再 将 多 个 乘积 项 相 或 
的 方式 。 根 据 这 个 道理 ， 生 成 如 图 9-90 所 示 的 电路 。 
图 中 左 侧 所 示 为 一 个 4 输入 1 输出 的 逻辑 电路 ， 利 用 
Crossbar 和 矩阵 《原理 见 本 书 1.3.9 节 以 及 6.3.1 节 ) ， 可 
以 灵活 选择 将 ABCD 以 及 A”B”C”D” 输 送 到 一 个 4 
输入 与 门 中 相 与 成 一 个 乘积 项 ，4 路 4 输入 与 门 形成 四 
个 乘积 项 ， 再 进入 4 输入 或 门 相 或 出 最 终结 果 。 通 过 
开关 控制 寄存 器 控制 Crossbar 上 每 个 交叉 点 的 晶体 管 
通 断 ， 从 而 可 以 选择 将 哪个 值 输入 到 与 门 。 值 得 注意 
的 是 ， 每 一 对 开关 〔 图 中 的 一 对 红 绿 组 合 ) 只 能 打开 
一 个 ， 如 果 两 个 都 打开 会 导致 错误 。 所 以 ， 这 一 对 信 
号 其 实 可 以 用 一 根 线 + 一 个 反 相 器 来 承载 ， 这 样 每 个 
与 门 只 需要 配 一 个 4 位 寄存 器 即 可 。 如 果 你 的 逻辑 只 
有 2 输入 ，4 输 入 用 不 了 ， 没 事 ， 把 另外 两 个 输入 的 正 


控制 逻辑 #2 


ЕД 
mret ЕД 
ЕД 


为 第 二 行 写 出 来 ， 就 是 E= А В 


L-I 
о > 


Е=А .B' -C -D' ЕА в. С: 


值 和 反 值 都 强制 恒定 为 1 就 可 以 了 (此 时 必须 用 8 位 寄 
存 器 与 每 个 与 门 对 应 才能 够 支持 这 种 用 法 ) 。 可 以 看 
到 输入 信号 先进 入 与 阵列 ， 经 过 与 门 做 乘积 〈 相 与 ， 
与 操作 和 相 乘 性 质 类 似 ， 见 本 书 第 1 章 介 绍 ) ， 多 个 
乘积 项 再 被 输送 到 或 阵列 ， 然 后 输出 。 

一 个 4 输入 的 逻辑 会 产生 16 种 输入 组 合 ， 所 以 ， 
一 个 完整 的 4 输入 1 输出 的 真 值 表 ， 需 要 用 4 套图 中 左 
侧 所 示 的 逻辑 来 堆砌 ， 最 终 形成 如 图 右 侧 所 示 的 完整 
逻辑 。 当 然 ， 如 果 你 的 逻辑 虽然 是 4 输入 ， 但 是 逻辑 
比较 简单 ， 只 用 了 比如 4 行 真 值 表 ， 那 么 此 时 右 侧 所 
示 的 电路 就 会 很 浪费 。 所 以 ， 采 用 图 中 左 侧 的 结构 ， 
然后 在 芯片 上 放置 多 套 同样 的 结构 ， 如 果真 值 表 很 
大 ， 可 以 用 多 个 该 结构 来 拼接 ， 一 样 可 以 达到 效果 。 

当然 ， 利 用 乘积 项 的 方式 来 表达 真 值 表 ， 会 有 很 
多 浪费 ， 因 为 表达 出 来 的 逻辑 里 面 会 有 很 多 重复 、 不 
相关 的 逻辑 ， 这 些 不 相关 的 兄 余 逻辑 其 实 是 很 可 以 被 
化 简 掉 的。 实际 的 产品 中 会 有 各 种 不 同 规格 和 连接 方 
式 的 与 /或 阵列 。 

Crossbar( 与 /或 阵列 ) 交叉 点 上 的 开关 《晶体 
管 ) ， 可 以 使 用 p/nMOS 管 + 控制 寄存 器 来 控制 ， 但 
是 这 样 做 需要 配套 大 量 的 寄存 器 ， 成 本 比较 高 ， 而 且 
每 次 加 电 需 要 重新 将 配置 信息 写 入 到 寄存 器 中 从 而 重 
新 打开 对 应 的 开关 。 另 一 种 方式 是 采用 基于 浮 栅 极 的 


E=A -B' -C .D' 可 以 描述 第 一 行 ， Шук = КЫЛСА Гзта и. 专门 


А 四 行 E= A .BC'.D'， 第 五 行 由 


于 E=0 ,不 用 写 表达 式 ， RGN, 又 都 不 对 ， 那 到 底 是 个 什么 状态 ? 任何 一 种 输入 组 合 ， 要 么 匹配 第 一 行 ， 
匹配 革 一 行 ， 这 思路 就 来 了 ， 既 然 是 
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? 下 ,E=A ВС D +A В' . 
这 个 式 子 表达 了 这 样 一 个 意思 ， 任 何 一 组 输入 组 合 ， вн, отл, а 
个 子 等 式 的 输出 一 定 是 0， 但 是 这 4 个 子 等 式 中 总 有 一 个 匹配 ， 那 么 其 输出 为 1 , 而 因为 这 4 个 子 等 式 的 输出 是 相 或 
在 一 起 的 ， 所 以 整个 等 式 的 输出 就 为 1 ,正好 匹配 了 E= 1 的 现实 。 代入 验证 发 现 ， 这 个 等 式 的 确 是 正确 的 ， 其 的 
确 可 以 完整 描述 一 个 真 值 表 逻 辑 。 DER 我 们 写 出 EFGH 四 个 输出 的 各 自 的 表达 式 : 

+ 


в сы ЖА ве, 2’ „БА B' C :.D +A B' C ‘D+ 
ср. 


所 以 ， 根 据 真 值 表 生 成 逻辑 电路 的 基本 规律 是 : 忽 陪 输 出 值 为 0 的 行 ， 找 出 输出 值 为 1 的 行 ， 然 后 观察 该 行 的 所 有 
输入 信号 的 值 ， 若 为 0 , 则 对 信号 取 反 ， 然 后 将 该 行 所 有 输入 信号 相 与 ， 再 将 所 有 | 
每 一 行 输入 信号 的 正 值 或 者 反 值 相 与 形成 一 个 乘积 项 ， 多 个 乘积 项 相 或 后 形成 一 个 输出 值 , 


行 相 或 ， 即 可 得 出 该 行 输出 值 . 


图 9-89 温习 根据 真 值 表 写 逻 辑 电路 表达 式 的 方法 
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图 9-90 ”实现 任意 生成 多 个 乘积 项 及 将 它们 相 或 的 电路 


Flash Cell 作 为 开关 ， 通 过 将 其 充 放电 就 可 以 控制 开关 
的 通 断 ， 而 且 Flash Cell 具 有 掉 电 信息 不 丢 的 特性 ， 下 
次 加 电 后， 芯片 中 的 逻辑 依然 存在 。 也 有 采用 PROM 
〈 电 可 擦 除 的 EEPROM、 紫 外 线 照 射 擦 除 的 EPROM 
等 ) 来 作为 开关 的 ， 其 也 可 以 实现 掉 电 后 逻辑 不 丢 ， 
成 本 更 低 。 其 他 还 有 采用 熔 丝 (Fuse) 或 者 反 熔 丝 
(CAntifuse) 的 一 次 性 编程 逻辑 〈 如 图 9-91 所 示 ) 。 

遵循 上 述 思路 ， 人 们 制作 出 了 各 种 PLD 
(Programmable Logic Device， 可 编程 逻辑 器 件 ) 。 
主流 的 几 种 PLD 形态 包括 : PAL、PLA、CPLD、 
FPGA， 其 中 CPLD 和 FPGA 应 用 最 为 广泛 。 


9.6.1 PAL/PLA 是 如 何 工作 的 


如 图 9-92 左 侧 所 示 为 PAL (Programmable Array 
Logic) 器 件 基 本 作用 原理 ， 其 由 可 编程 的 ( 叉 形 
表示 可 控 开关 ) 与 阵列 与 固定 连接 ( 黑 点 表示 固 
定 连 通 ) 的 或 阵列 拼接 而 成 。 图 中 右 侧 所 示 为 PLA 
(Programmable Logic Array) 器 件 ， 其 与 PAL 的 
区 别 是 其 或 阵列 也 是 可 编程 的 ， 更 加 灵活 。 图 中 的 
与 门 和 或 门 都 是 简化 表示 的 ， 实 际 上 它们 都 是 多 输 
入 的 。 

与 阵列 和 或 阵列 只 是 PAL/PLA 器 件 的 核心 部 分 ， 
其 还 需要 有 外 围 部 分 ， 也 就 是 如 何 将 数据 输送 到 与 / 
或 阵列 上 ， 计 算出 来 的 数据 如 何 保存 并 输出 。 所 以 ， 


第 9 章 


还 需要 加 上 寄存 器 、IO 模 块 等 部 分 。 除 此 之 外 ， 还 
需要 保存 所 有 Crossbar 控 制 开关 的 通 断 控制 值 ， 这 些 
控制 值 被 称 为 PLD 的 配置 信息 。 配 置信 息 可 以 被 存放 
在 一 片 外 接 的 非 易 失 性 存储 器 中 ， 每 当 PAL/PLA 加 电 
后 ， 从 该 存储 器 中 读 出 然后 载 入 到 自己 内 部 用 于 控制 
开关 的 部 件 ， 比 如 寄存 器 中 。 如 果 采 用 EEPROM、 
Flash 来 充当 开关 ， 则 可 以 不 需要 外 接 的 存储 器 ， 因 为 
开关 本 身 就 是 非 易 失 性 的 。 

如 图 9-93 所 示 为 某 PAL 器 件 内 部 架构 示意 图 。 

PAL/PLA 器 件 出 现 于 20 世 纪 70 年 代 ， 由 于 其 集 
成 的 逻辑 规模 比较 小 ， 目 前 已 经 被 淘汰 。 人 们 目前 
广泛 使 用 的 是 集成 有 更 多 逻辑 的 CPLD (Complex 
Programmable Logic Device) 。 


9.6.2 ”CPLD 是 如 何 工作 的 


CPLD 相 比 PAL/PLA 和 集成 了 更 大 量 的 逻辑 ， 其 做 
法 相当 于 把 多 个 小 规模 的 PAL 逻 辑 阵 列 ( 又 被 称 为 
Macro Cell， 宏 单元 ) 利用 更 大 规模 的 Crossbar 连 接 起 
来 ， 可 以 让 多 个 小 逻辑 合并 成 一 个 大 逻辑 阵列 从 而 体 
现 更 复杂 的 真 值 表 ， 也 可 以 将 某 个 逻辑 块 的 输出 锁定 
到 结果 寄存 器 中 然后 作为 另 一 个 逻辑 块 的 输入 ， 形 成 
时 序 逻辑 。 所 以 CPLD 相 比 PAL/PLA 可 以 形成 更 大 规 
模 、 更 复杂 的 组 合 罗 辑 和 时 序 罗 辑 。 另 外 ，CPLD 相 
应 地 也 增加 了 IO 模块 的 数量 和 容量 
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9-93 ” 某 PAL 器 件 内 部 架构 示意 图 


如 图 9-94 所 示 为 Altera 公 司 〈 目 前 已 被 Intel 收 购 ) 
的 MAX 7000 型 CPLD 内 部 的 架构 示意 图 。 多 个 Macro 
Cell 组 成 了 LAB (Logic Array Block) ， 多 个 LAB 又 
通过 PIA (Programmable Interconnect Arrary) 连接 起 
来 。 不 同 厂商 对 这 些 概念 会 有 不 同 的 命名 。 


CPLD 芯片 内 部 一 般 含 有 EEPROM 或 者 NAND 
Flash 用 于 存放 配置 信息 ， 并 向 外 提供 UART、IIC 和 
JTAG 等 接口 。Host 端 可 以 通过 IIC 或 者 JTIAG 接 口 连 
接 CPLD 芯片 并 向 其 推送 配置 信息 。CPLD 内 部 会 有 
个 硬 状态 机 负责 对 这 些 外 围 接口 进行 响应 ， 并 负责 
将 配置 信息 应 用 到 内 部 的 逻辑 阵列 中 ， 此 外 还 需要 
负责 对 CPLD 内 部 的 互联 网 络 矩 阵 进行 配置 ， 将 对 
应 的 信号 导 通 到 CPLD 外 部 的 管 脚 上 。CPLD 的 管 脚 
有 很 多 是 复 用 的 ， 比 如 可 以 将 一 部 分 管 脚 配置 成 与 
其 内 部 某 些 远 辑 输出 值 连通 ， 也 可 以 被 配置 为 IC 接 
口 。 这 些 都 需要 Host 端 来 下 发 配置 信息 给 CPLD。 
下 发 配置 信息 的 过 程 又 被 称 为 烧 录 。 


CPLD 出 现 于 20 世 纪 80 年 代 ， 至 今 仍然 在 广泛 使 
用 。CPLD 的 集成 度 最 高 大 概 在 几 万 门 〈 将 其 中 的 乘 
积 项 数量 换算 成 门 电路 ) 左右 ， 而 其 前 身 PAL/PLA 大 
概 能 集成 几 百 门 。 目 前 全 球 两 大 CPLD 厂商 为 Altera 
(Intel) 以 及 Xilinx， 其 他 厂商 还 有 Lattice、Actel 
(Microsemi) 等 。 

目前 的 CPLD 中 所 集成 的 逻辑 资源 已 经 足够 实现 
一 个 基本 的 通用 的 CPU 了 。 当 然 ， 我 们 一 开始 的 目的 
是 用 纯 数字 逻辑 来 加 速 计算 ， 避 免 采 用 CPU 执行 代码 
的 软 方式 来 计算 。 

CPLD 中 集成 的 组 合 逻辑 资源 相 比 寄存 器 而 言 比 
例 较 高 ， 这 些 组 合 逻辑 用 于 控制 逻辑 很 合适 〈 复 杂 的 
译 码 器 需要 更 大 块 的 逻辑 ) ， 比 如 一 些 电 路 板 上 的 
LED 控 制 、 加 电 时 序 控制 等 。 几 乎 在 每 个 复杂 点 的 电 
路 板 上 都 可 以 看 到 CPLD 的 身影 。 

比如 ， 某 个 单 板 上 有 24 个 LED 灯 需要 控制 ， 这 类 
单 板 多 见于 服务 器 内 部 用 于 连接 硬盘 的 背 板 〈 见 第 
7 章 图 7-21) 以 及 各 类 交换 板 。 如 图 9-95 所 示 的 SAS 
Switch 单 板 〈 左 下 角 方形 芯片 就 是 一 块 CPLD) ， 单 
板 上 需要 对 每 个 硬盘 或 者 接口 用 大 量 LED 来 展示 硬盘 / 
接口 的 各 种 状态 。 
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假设 现在 需要 对 LED 进 行 闪烁 控制 ， 要 求 针 对 任 计算 加 速 去 的 ， 更 多 目的 是 为 了 避免 人 们 采用 分 立 器 
何 一 个 LED 灯 ， 都 可 以 控制 其 每 隔 一 定时 间 自 动 闪烁 。 件 + 面 包 板 这 种 费时 费力 的 方式 来 开发 逻辑 电路 。 在 
一 次 。 如 果 没有 CPLD， 那 么 你 就 需要 准备 24 个 计数 。 这 个 需求 被 满足 之 后 ，PLD 的 任务 自然 就 是 下 一 步 的 
器 ， 还 得 准备 一 个 小 CPU 用 于 向 这 些 计 数 器 发 送 数据 ”计算 加 速 了 。 
和 控制 信号 ， 这 很 不 方便 。 有 了 CPLD 之 后 ， 直 接 在 但 是 如 果 想 用 CPLD 来 做 计算 加 速 ， 比 如 实现 流 
中 搭建 出 24 个 计数 器 ， 然 后 将 其 24 个 输出 管 脚 连 接 ”水 线 或 者 生成 大 量 的 并 行 计算 逻 辑 单元 的 话 ， 其 无 论 
到 LED 电 源 控制 线路 上 ， 就 可 以 完成 CPLD 自动 控制 ”是 从 集成 度 上 来 讲 ， 还 是 内 部 的 寄存 器 数量 〈 形 成 流 
LED 的 闪烁 。 这 片 CPLD 还 需要 负责 对 整个 单 板 上 各 ”水 线 需 要 将 大 块 逻辑 切 分 成 小 块 逻辑 然后 增加 中 间 寄 
种 器 件 的 加 电 时 序 的 控制 。 存 器 ) 来 讲 ， 都 无 法 满足 这 类 需求 。 

PLD 这 些 可 编程 器 件 出 现 的 初衷 其 实 并 不 是 冲 着 


及 大 话 计算 机 一 一 计算 机 系统 底层 架构 原理 极限 剖析 


于 是 ，20 世 纪 80 年 代 中 期 ，Xilinx 公 司 发 布 了 另 
一 种 可 编程 逻辑 架构 : FPGA (Field Programmable 
Gates Array， 现 场 可 编程 门 阵列 ) 。 该 架构 可 以 集 
成 几 百 万 甚至 上 千 万 门 的 等 效 逻 辑 资源 ， 这 让 FPGA 
成 为 目前 除了 GPU 之 外 的 唯一 一 种 加 速 计算 主流 
方案 。 


9.6.3 FPGA 是 如 何 工 作 的 


与 CPLD 采 用 与 /或 门 阵列 将 多 个 乘积 项 相 或 的 
方式 来 实现 逻辑 的 方式 不 同 的 是 ，FPGA 采 用 另 一 个 
奇妙 的 解决 办 法 。 我 们 在 第 1 章 中 介绍 过 ， 任 何 ( 注 
意 ， 是 任何 ， 没 有 之 一 也 没有 例外 ) 逻辑 电路 都 可 以 
表达 成 真 值 表 对 外 进行 响应 ， 输 入 值 与 输出 值 严 格 
一 一 对 应 。 可 以 这 样 认为 ， 只 要 实现 了 这 个 真 值 表 ， 
就 可 以 完成 该 电路 的 功能 ， 而 实现 这 个 真 值 表 并 不 一 
定 非 要 用 门 电路 ， 可 以 用 存储 器 。 比 如 ， 当 输入 值 为 
0000 时 输出 10， 输 入 为 0001 时 输出 11， 那 么 可 以 准备 
16 行 、 每 行 2 bit 的 存储 器 ， 然 后 用 4 bit 输 入 值 作为 行 
号 索引 ， 将 对 应 行 号 的 输出 值 保存 在 该 行 的 2 bit 上 ， 
每 次 得 到 某 个 输入 值 ， 就 到 对 应 行 号 读 出 输出 值 并 输 
出 ， 这 也 可 以 真实 体现 真 值 表 中 的 逻辑 ， 而 不 需要 
任何 逻辑 门 电路 。 如 图 9-96 所 示 为 使 用 4 字 节 的 存储 
器 实现 了 一 个 (a AND b) OR c 的 逻辑 真 值 表 。 当 
然 ， 可 以 使 用 容量 更 大 的 存储 器 实现 (或 者 说 存储 ) 
更 复杂 的 逻辑 。 用 于 存放 真 值 表 的 存储 器 被 称 为 LUT 
(Lookup Table) 。 
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利用 LUT 查 表 来 “计算 ”数据 时 ， 其 过 程 并 不 是 
“计算 ”， 而 是 “查询 ”。 也 就 是 说 ，LUT 中 保存 的 
数据 ， 其 实 都 是 预先 被 计算 好 的 ， 相 当 于 把 一 块 逻辑 
电路 的 所 有 结果 展开 到 了 LUT 中 。 如 果 使 用 逻辑 电路 
来 搭建 这 个 逻辑 ， 则 只 需要 一 个 双 输 入 与 门 加 一 个 双 
输入 或 门 ， 如 果 换 算 成 开关 的 话 〈 不 考虑 实际 工程 设 
计 ) ， 只 需要 与 门 两 个 开关 和 或 门 两 个 开关 共 4 个 开 
关 即 可 实现 。 而 LUT 实 现 相同 逻辑 所 耗费 的 晶体 管 数 
量 显然 要 大 于 逻辑 门 。 

为 了 实现 高 速 查 表 ，LUT 一 般 使 用 SRAM 型 存储 
器 ， 其 计算 或 者 说 查找 速度 相 比 使 用 逻辑 门 而 言 可 
能 会 更 快 也 可 能 更 慢 。 如 果 LUT 足 够 大 ， 对 应 的 罗 
辑 电 路 足够 复杂 级 数 也 足够 深 ， 那 么 此 时 用 LUT 来 
计算 显然 更 快 。 但 是 如 果 LUT 容 量 较 小 ， 体 现 的 罗 
辑 容 量 有 限 ， 则 可 能 需要 将 多 个 LUT 级 联 起 来 形成 
更 大 规模 的 逻辑 ， 此 时 级 联 线 会 产生 较 大 延迟 ， 而 
且 不 可 预测 。 

本 书 前 面 章 节 中 介绍 过 SRAM 基 本 构造 ， 其 存储 
1 bit 需 要 6 个 开关 〈 如 图 9-97 所 示 ) ， 上 述 逻 辑 就 需要 
至 少 192 个 开关 ， 相 比 逻辑 门 只 需要 4 开关 这 简直 让 人 
无 法 接受 。 既 然 计算 速度 类 似 ， 耗 费 电 路 资源 量 显 著 
增加 ， 其 意义 何在 ? 现在 我 们 需要 回归 本 质问 题 了 ， 
因为 这 个 LUT 中 的 值 ， 可 以 随时 改变 ! 如 果 想 要 实现 
新 的 运算 逻辑 ， 只 需要 将 新 真 值 表 写 入 该 LUT 即 可 。 
这 就 是 所 谓 Field Programmable 的 含义 。 

LUT 方 式 相当 于 用 空间 换 可 编程 灵活 性 ， 其 相 
当 于 把 位 于 高 维度 上 运作 的 逻辑 门 电路 进行 降 维 展 
开 。FPGA 内 部 也 可 以 采用 NAND Flash 来 存储 真 值 
表 ， 这 样 会 耗费 更 少 的 晶体 管 ， 但 是 其 查找 速度 相 
比 SRAM 就 不 敢 恭 维 了 。 但 是 Flash 相 比 SRAM 的 一 
个 好 处 是 其 断 电 之 后 数据 不 会 于， 所 以 芯片 下 次 启 
动 时 可 以 立即 进入 工作 状态 ， 而 基于 SRAM 查 找 表 
的 芯片 每 次 加 电 之 后 ， 需 要 将 真 值 表 即 时 灌 入 后 才 
能 工作 。Flash 相 比 SRAM 的 另 一 个 好 处 是 前 者 相对 
更 加 抗 电磁 辐射 〈 电 磁场 ) 和 电离 辐射 (粒子 流 、 
射线 ) 的 干扰 ， 所 以 航空 航天 等 领域 经 常 使 用 基于 


substrate 


图 9-97 SRAM Cell 以 及 NAND Flash Cell 


Flash 查 找 表 的 运算 加 速 芯片 。 基 于 SRAM 的 逻辑 由 
于 每 次 启动 需要 从 外 置 存储 器 载 入 配置 信息 ， 所 以 
容易 被 破解 ， 黑 客 只 要 从 外 部 存储 器 读 出 这 些 配置 
信息 就 可 能 分 析出 最 终 的 逻辑 ， 而 基于 Flash 的 则 难 
以 破解 ， 因 为 你 根本 判断 不 出 来 哪个 Flash Cell 里 被 
充 了 电 。 基 于 熔 丝 的 芯片 也 可 能 被 破解 ， 需 要 费 点 
劲 ， 就 是 利用 x 光 成 像 、 显 微 镜 拍照 芯片 ， 甚 至 对 芯 
片 进行 打磨 ， 露 出 下 层 的 电路 来 分 析 。 目 前 大 部 分 
FPGA 都 是 用 SRAM 来 存放 LUT。 

与 CPLD 中 的 与 /或 阵列 一 样 ，LUT 只 能 项 蔡 一 块 
组 合 罗 辑 ， 而 组 合 逻辑 必须 配套 时 序 罗 辑 一同 作 用 才 
能 做 到 受 控 ， 所 以 ， 在 LUT 的 输出 端 ， 需 要 加 上 寄存 
器 来 锁 住 LUT 的 输出 信号 。 有 时 可 能 需要 将 LUT 的 计 
算 结 果 直 接 作 为 其 他 LUT 的 输入 ， 也 就 是 与 其 他 LUT 
组 成 更 大 的 组 合 逻 辑 ， 这 样 则 可 以 直接 将 LUT 结 果 输 
出 。 需 要 用 MUX 来 选择 从 寄存 器 输出 还 是 直接 由 LUT 
输出 ， 这 方面 与 CPLD 做 法 类 似 。 

与 CPLD 不 同 的 是 ， 由 于 FPGA 集 成 了 超大 规模 
的 逻辑 资源 ， 其 逻辑 单元 之 间 的 连接 无 法 做 成 集中 
式 的 。 这 就 像 在 一 个 芯片 内 集成 了 大 量 的 CPU 核 心 
一 样 ， 此 时 芯片 必须 用 NoC 分 布 式 网 络 互 连 方式 〈 见 
第 6 章 6.3.3 节 ) 。 如 图 9-98 所 示 为 FPGA 内 部 架构 示 
意图 。 

图 中 的 PSM 就 是 NoC 网 络 的 分 布 式 交换 机 /路 由 
器 ，CLB 内 部 含有 一 个 或 者 多 个 LUT 以 及 一 些 寄存 
器 、MUX 等 逻辑 。PSM 和 CLB 是 Xilinx 命 名 的 概念 ， 
其 他 厂商 可 能 会 有 不 同 的 名 称 ， 但 是 概念 都 相同 。 

有 些 其 至 包含 一 些 计 算 资源 ， 比 如 加 法 器 (如 图 
9-99 所 示 ) 、 乘 法 器 ， 以 及 含有 先行 进位 (或 者 说 并 
行进 位 ， 详 见 第 1 章 1.2.11 节 ) 的 加 法 器 。 目 前 主流 的 
FGPA 在 每 个 CLB 中 一 般 都 会 集成 加 法 和 乘法 器 ， 有 
些 集成 了 乘 加 器 ， 也 就 是 可 以 一 个 时 钟 周期 直接 算出 
A*B+C。 这 种 乘 加 运算 在 大 量 的 信号 处 理 场景 下 都 有 
广泛 的 使 用 ， 所 以 干脆 集成 进去 了 。 
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与 众 核心 CPU 中 的 包 交 换 NoC 不 同 的 是 ，FPGA 
内 部 的 互联 网 络 是 透明 的 、 基 于 连接 的 交换 网 络 ， 
该 网 络 经 过 对 应 的 设置 之 后 ， 直 接 将 导线 从 源头 导 
通 到 目的 地 ， 因 为 可 变 成 逻辑 器 件 内 的 交换 网 络 
必须 可 以 承载 任意 信和 号、 任意 编码 格式 / 包 格 式 的 
信号 。 

如 图 9-101 所 示 为 FPGA 内 部 常用 的 三 种 交换 矩阵 
方式 。 值 得 一 提 的 是 出 于 成 本 考虑 ， 交 换 矩 阵 并 不 能 
实现 任意 两 点 间 两 两 互联 ， 而 是 给 出 了 几 种 固定 的 连 
通 模式 。 图 中 所 示 的 Disjoint 模 式 被 设计 为 纵向 、 横 向 
分 别 可 连通 ， 在 对 角 线 方向 上 则 只 能 与 相 邻 三 个 方向 
上 对 应 序号 的 端口 连通 ， 也 就 是 如 图 所 示 的 1 只 能 连 
1，2 只 能 连 2， 其 局 限 性 较 高 。 而 Wilton 模 式 可 以 更 灵 
活 。 此 外 还 有 Universal 模 式 。 

如 图 9-102 所 示 为 FGPA 内 部 的 互联 网 络 示意 图 ， 
以 及 一 个 实际 连通 后 的 拓扑 。 交 换 矩 阵 内 部 由 于 需要 
控制 各 个 方向 上 的 连通 性 ， 其 每 个 交叉 点 布置 的 开关 
拓扑 如 图 右 侧 所 示 。 

如 图 9-103 所 示 为 一 片 FPGA 内 部 真实 的 连接 拓扑 
示意 图 ， 图 的 右 侧 为 左 侧 图 中 对 应 区 域 的 放大 图 。 灰 
/ 红 /绿色 块 内 含 LUT， 也 就 是 CLB。 绿 / 蓝 / 红 色 线 段 就 
是 内 部 的 互联 网 络 ， 绿 色 线条 部 分 就 是 PSM。 

分 布 式 NoC 给 FPGA 中 的 罗 辑 开发 带 来 了 一 些 困 
难 ， 这 正 像 NUMA 系 统 给 多 线程 程序 带 来 的 性 能 不 一 
致 一 样 ， 这 也 是 None Uniform 的 含义 。 通 过 网 络 连 接 
的 多 个 LUT 之 间 的 距离 是 不 同 的 ， 有 近 有 远 ， 跨 越 距 
离 长 的 信号 ， 其 时 钟 频率 就 上 不 去 。 这 种 不 便 会 带 来 
设计 成 本 。 相 反 ， 由 于 CPLD 集成 度 低 ， 其 内 部 的 网 
络 是 集中 式 的 ， 各 个 逻辑 单元 连 线 长 度 是 固定 的 ， 所 
以 时 延 就 比较 均匀 。 

如 图 9-104 所 示 为 FFT 快 速 傅 里 叶 变 换 专用 运算 电 
路 架构 。 可 以 发 现 这 种 架构 是 无 法 用 通用 CPU 核 心 满 
足 的 。 通 过 将 对 应 的 逻辑 写 入 到 LUT 中 ， 可 以 拼接 出 
该 电路 ， 并 且 还 可 以 实现 多 套 该 电路 从 而 实现 并 行 流 
水 线 ， 进 一 步 提 升 吞吐 量 。 
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图 9-98 ” FPGA 内 部 架构 示意 图 
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图 9-104 FFT 快 速 傅 里 叶 变换 专用 运算 电路 架构 


FPGA 的 每 个 LUT 包 含 的 逻辑 比较 少 ，LUT 一 般 
被 设计 为 4 输入 1 输出 ， 一 个 逻辑 单元 CLB 内 包含 1 一 4 
个 LUT。 按 理 说 ， 可 以 把 LUT 做 大 ， 一 次 性 写 入 更 复 
杂 的 逻辑 进去 ， 但 是 这 样 做 会 导致 浪费 ， 但 如 果 只 想 
实现 一 个 简单 的 逻辑 ， 那 么 该 LUT 中 其 他 存储 器 行 就 
被 浪费 了 。SRAM 是 非常 珍贵 的 资源 。 所 以 ， 利 用 较 
小 的 LUT， 加 上 大 规模 的 互联 ， 可 以 在 更 高 利用 率 下 
实现 更 灵活 的 逻辑 资源 排 布 和 组 合 ， 从 而 实现 更 细密 
的 流水 线 ， 以 及 提高 电路 的 运行 频率 。 

如 图 9-105 所 示 为 所 有 PLD 器 件 的 分 类 示意 图 。 
Xilinx 于 1984 年 发 明了 世界 首 款 FPGA， 当 时 其 并 
不 叫 FPGA。 该 称呼 是 1988 年 由 Actel 公司 提出 并 
流行 至 今 的 。 到 目前 为 止 ，FPGA 在 容量 上 已 经 提升 
了 约 一 万 倍 ， 速 度 提升 了 约 一 百倍 ， 每 单位 功能 的 
成 本 和 能 耗 降低 了 约 一 万 倍 。 首 款 FPGA， 即 Xilinx 
XC2064， 只 包含 64 个 逻辑 模块 ， 每 个 模块 含有 两 个 
3 输入 LUT 和 一 个 寄存 器 。 按 照 现 在 的 计算 ， 该 器 件 
有 64 个 逻辑 单元 一 一 不 足 1000 个 逻辑 门 。 尽 管 容量 
很 小 ，XC2064 晶片 的 尺寸 却 非常 大 ， 比 当时 的 微 处 
理 器 还 要 大 ， 当 年 受 限 于 制造 工艺 ， 采 用 了 2.5 微米 
工艺 技术 最 终 勉强 制造 出 这 种 器 件 。 
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FPGA 的 另 一 个 特点 是 ， 其 LUT 可 以 变 身 。 如 
果菜 逻辑 需要 一 些 SRAM 存 储 器 来 存放 中 间 数 据 ， 
LUT: “我 就 是 啊 ! 变形 ! ”值得 庆幸 的 是 ， 由 于 
LUT 遍 布 各 处 ， 哪 里 有 和 需求， 哪里 的 LUT 都 能 就 近 被 
配置 成 SRAM。 

现代 的 FPGA 其 实 已 经 不 仅仅 是 纯粹 的 可 编程 逻 
辑 器 件 了 ， 其 内 部 其 实 集成 了 大 量 的 固定 功能 不 可 编 
程 的 模块 〈 直 接 用 逻辑 门 而 不 是 查找 表 实 现 ) ， 比 
如 集成 了 ARM CPU 核 心 用 于 运行 总 控 固 件 ， 从 而 对 
FPGA 内 部 的 可 编程 逻辑 部 分 进行 配置 ， 以 及 运行 操 
作 系 统 与 一 些 上 层 功能 ， 同 时 为 可 编程 逻辑 准备 数 
据 和 下 发 执行 等 。 有 些 FPGA 甚 至 集成 了 数 百 个 专用 
DSP (与 传统 DSP 不 同 ， 并 行 度 更 高 ， 指 令 集 更 精简 
或 者 不 用 指令 集 ) 处 理 器 核心 ， 以 及 集成 了 PCIE 控 制 
器 、DDR 内 存 控制 器 、 以 太 网 控制 器 等 各 种 其 他 IO 
控制 器 ， 甚 至 集成 了 一 些 不 可 编程 的 专用 加 速 电路 。 
现代 FPGA 已 然 是 一 台 内 部 运算 、 存 储 和 IO 资源 丰富 
的 海洋 ， 而 且 可 以 通过 内 部 互联 矩阵 将 这 些 资源 灵活 
地 连接 起 来 ， 形 成 高 维度 运算 单元 ， 加 上 其 内 部 集成 
的 通用 CPU 核心 ， 其 整体 可 以 自 成 一 派 ， 其 自身 就 是 
一 台 微 型 超级 计算 机 ， 有 软 有 硬 ， 软 硬 通 吃 ， 这 种 思 
路 被 称 为 SOPC (System on Programmable Chip) ， 如 
图 9-106 所 示 。 

FPGA 内 部 集成 的 这 些 不 可 编程 资源 ， 很 多 都 是 
由 第 三 方 公司 开发 的 使 用 纯 门 电路 的 模块 ， 这 些 模块 
被 称 为 IP (Intellectual Property， 知 识 产权 ) 。 比 如 
ARM 的 CPU、PCIE 的 控制 器 等 ， 这 些 资源 本 身 功 能 
单一 固定 ， 虽 然 也 可 以 用 LUT 来 搭建 一 个 PCIE 控 制 
器 出 来 ， 但 是 其 性 能 显然 无 法 与 纯 逻 辑 门 优化 构建 
的 PCIE 控 制 器 相 比 ， 所 以 前 者 也 只 能 运行 在 低频 率 
下 ， 这 就 失去 了 意义 。 另 外 ， 这 些 IP 模 块 也 不 需要 自 
定义 ， 因 为 其 完成 的 事情 都 是 标准 化 的 ， 根 本 不 需要 
定制 ， 比 如 USB 控 制 器 等 。 人 们 通常 把 非 要 自己 去 制 
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图 9-105 所 有 PLD 器 件 的 分 类 示意 图 


作 一 款 成 熟 、 功 能 单一 、 标 准 化 的 部 件 的 过 程 戏称 为 
“ 造 轮子 ”， 意 即 本 末 倒 置 ， 轮 子 直 接 买 来 就 可 以 
了 ， 更 需要 定制 的 是 上 层 功 能 。 
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图 9-106 ”现代 FPGA 内 部 架构 以 及 图 像 处 理 FPGA 内 部 架构 示意 图 


9.6.4 ” FPGA 编程 及 应 用 形态 


基于 PLD 器 件 进行 开发 逻辑 ， 首 先 确 定 该 逻辑 的 
功能 ， 然 后 将 其 翻译 成 FPGA LUT 内 的 真 值 表 。 这 个 
过 程 如 果 全 靠 人 脑 ， 将 会 非常 复杂 。 为 此 ， 人 们 开发 
了 硬件 描述 语言 (Hardware Description Language, 
HDL) 。 开 发 者 先 把 逻辑 功能 描述 成 HDL， 然 后 HDL 
编译 器 自动 分 析 并 将 这 些 逻 辑 编排 落地 到 FPGA 中 。 

比如 ， “一 个 逻辑 模块 有 3 输入 8 输出 ， 当 输 
入 为 xxx 时 输出 为 xxxxxxxx; 当 输 入 为 xxx 时 输出 为 
XXXXXXXX; °... ”我 们 知道 这 是 在 描述 一 个 3-8 
译 码 器 。 很 显然 ， 这 种 描述 方式 中 并 没有 出 现任 何 对 
逻辑 门 的 描述 ， 它 只 是 在 描述 这 个 电路 的 行为 是 什 
么 。 这 种 HDL 描 述 方式 被 称 为 行为 级 描述 。 

而 如 果 是 这 样 来 描述 : “有 这 么 个 器 件 ， 有 
xxx 这 些 输入 和 输出 信号 ， 其 内 部 有 个 驱动 能 力 x 延 
人 迟 x 的 双 输 入 与 门 连接 了 x 和 x 及 x 信号 ， 其 内 部 有 个 
驱动 能 力 x 延迟 x 的 双 输 入 异 或 门 连接 了 x 和 x 及 x 信 
8, н ”这 被 称 为 门 级 描述 。 

在 行为 级 和 门 级 之 间 还 存在 一 种 叫 作 寄存 器 传输 级 
描述 (Register Transfer Level, RTL) 的 中 间 描 述 方式 。 
行为 级 描述 层次 太 高 太 抽象 ， 代 码 非常 精简 ， 有 种 你 咋 
不 上 天 的 感觉 。 而 门 级 描述 非常 底层 〈 其 实 还 有 更 底层 
的 开关 级 描述 ， 因 为 门 电路 是 由 开关 组 成 的 ) ， 代 码 量 
非常 大 ， 写 起 来 不 方便 。 而 RIL 级 描述 则 成 为 比较 主流 
的 描述 方式 ， 其 对 行为 级 描述 得 更 加 具体 ， 但 是 却 又 避 
1 module q_decode_38(data_in,data_out); 
2 input datain_A, datain_B; 
3 input[2:0] data_in; 


4 outpul[7:0] data_out; 
5 reg[7:0] data_out 
6 


Са 
тед dataout 


7 always@(data_in) 

8 begin 

9 case(data_in) 

10 3'd0:data_out = 8'b0000_0001; 
3'd1:data_out = 8Ъ0000_0010; 


说 sl==1) 


end 


14 
data ) 0000; | | 15 endmodule 
3'd6:data_out = 8'b0100_0000; 
3'd7:data_out = 8Ъ1000_0000; 
endcase 
end 


21 endmodule 


module ActiveStructure_mux2(datain_A, datain_B, sl, dataout): 


always @(datain_A or datain_B or sl) 
8 begin 


dataout = datain_A; // 控 制 信号 s 为 1 , 输出 datain_A 
else 
dataout = datain_B; // 控 制 信 号 s| 为 0 , 输出 datain_B 


免 谈 及 底层 的 电路 结构 ， 其 只 聚焦 在 数据 进入 组 合 逻 辑 
和 时 序 逻 辑 电 路 时 的 更 具体 行为 。 

上 述 描述 方式 都 属于 HDL。 目 前 有 两 种 比较 流行 
的 HDL， 分 别 为 VHDL 和 Verilog HDL。 如 图 9-107 一 图 
109 所 示 为 一 些 简单 的 行为 级 和 门 级 描述 的 例子 。 

如 图 9-110 左 侧 所 示 为 级 与 门 级 描述 的 基本 区 别 示 
意图 。 图 中 右 侧 所 示 为 另 一 种 行为 级 描述 方式 ， 也 就 
是 直接 使 用 真 值 表 来 描述 。 

从 顶层 行为 级 HDL 一 直到 晶 元 上 的 开关 版 图 (版 
图 的 概念 见 第 3 章 3.3.4 节 ) ， 需 要 一 步 步 地 进行 分 
析 、 翻 译 。 

首先 需要 将 项 层 行为 级 描述 翻译 成 RTL 级 描述 ， 
这 一 步 被 称 为 行为 综合 (Behavior Synthesis) ， 这 一 
步 一 般 靠 人 工 翻 译 。 也 有 少数 工具 可 以 自动 翻译 ， 但 
是 局 限 性 比较 大 。 

下 一 步 是 将 RTL 描 述 翻 译 成 门 级 描述 ， 这 一 步 被 称 
为 逻辑 综合 (Logic Synthesis) ， 所 生成 的 电路 图 叫 作 网 
Ж (netlist) ， 如 图 9-111 所 示 。 这 一 步 会 由 逻辑 综合 工 
具 自 动 来 完成 。 在 这 一 步 中 ， 用 户 可 以 根据 自己 所 
采用 的 底层 器 件 的 规格 、 特 性 ， 来 控制 综合 过 程 中 
的 各 种 参数 ， 以 满足 自己 所 用 器 件 的 各 方面 要 求 。 
而 这 些 具体 参数 限制 和 要 求 ， 在 行为 综合 这 一 步 是 
不 考虑 的 。 正 因 如 此 ， 高 层 抽象 的 描述 语言 具有 更 
好 的 可 移植 性 。 这 与 基于 CPU 的 软件 编程 语言 场景 


moduleTwoMux(datain_A.datain_B,sl,dataout); 
inputdatain_A, 
баіаіп В, 


not U1(nsl,sl): 

and U2(sIA.datain_A,sl); //s| 为 1 ,输出 datain_A 
9 and U3(slB.datain_Bnsl); /sl 为 0 , 输出 datain_B 
10 or U4(dataout,slA,sIB); 


1 

2 

3 

4 sl; 

5  outputdataout; 
6 

7 

8 


12 endmodule 


图 9-107 一 些 简单 的 行为 级 和 门 级 描述 的 例子 (1) 


ИЗИП “include "full_add1.v” 
'in,sum,cout); module add4_1(sum,cout,a,b,cin); 
при output[3:0] sum; 
output sum,cout; output cout; 
wire s1,m1,m2,m3; input[3:0] a,b; 
input cin; 
and (m1,a,b), full_add1 f0 
(m2,b,cin), 
(m3,a,cin); 
xor (s1,a,b), 
(sum,s1,cin); 
or (cout,m1,m2,m3); 
endmodule 


tull_add1 t3(a[3).b[3] cin3,sum[3] cout): 


module add4_3(cout,sum,a,b,cin); 


always @(a or b or cin) 


endmodule 


一 些 简单 的 行为 级 和 门 级 描述 的 例子 (2) 


жов “万 箭 齐 发 一 一 加 速 计算 与 超级 计算 机 [RD 生生 


module my_ALU(out,a,b,select); 
output [4:0] out; 
input [3:0] a,b; 
input [2:0] select; 
t; 


output[3:0] sum; 
output cout; 
input[3:0] a,b; 
input cin; 3'b000; out=a; 
reg[3:0] sum; 3'b001: out=a+b; 

N 3'b010: out=a-b; 
reg cout; 3'b011: out=a/b; 
з'ъ100: out=a%b; 
begin 3'b101: out=a<<1; 
{cout,sum}=a+b+cin; н баени 
епа default: out=5'b00000; 

endcase 

endmodule 


case(select) 


4 位 全 加 描述 


简易 ALU 行 为 级 描述 


图 9-108 
module flop (data, clock, clear,q œ); | | module hardreg(a, clk, chbqd:| #8 
input data, clock, clear; input clk clrb; Е 
output ФФ; input[3:0] d; ГЕЯ = 
output[3:0] q; e 
nand #10 па! (а, data, clock, clear), Е 
nd2 (b, ndata, clock), flop #1 (9(0], clk, си, а[0], ), š ° 
п (d, c, b, clear), #2811), clk, си, 911], ), у 
nd5 (e, с, nclock), 73 (a[2], clk, clrb, q[2], ), НЧ: ^а 
пф (f, q пс1оск), f4 (913, clk, clrb, а[3], ); 
пав (qb, а, f, с1еаг); = Ы 
папі #9 ngoa, d), endmodule = y 
па? (а, e, Ф); Hds "а 
not #10 ivl(ndata, data), ти о 
192 (пс1оск, clock); 5 a 
7 
endmodule а; $ a 
图 9-109 一些 简单 的 行为 级 和 门 级 描述 的 例子 (3) 


//җге Х // 端 口 定义 
input // 输 入 端口 input // 输 入 端口 
output //$A ЖП output // НП 


// 数 据 类 型 说 明 
reg 
wire 


// 数 据 类 型 说 明 


ПУНЕ 

always @ (敏感 事件 列表 ) 
begin 
if-else、case、for 等 行为 语句 ' 
end not C (输出 1，…… 输 出 n， 输 入 ) : 


// 门 级 建 模 描述 


and А1 СЯ, ЗЛІ, = 


primitive carry_udp(cout,cin,a,b); 


input cin,a,b; 
output cout; 
table 
Ист а b :cout ”/W/ 真 值 表 
000: 0; 
010: 6; 
001: 0; 
EFTER 
100: 0; 
тот: d 
和 
тт 
endtable 
endprimitive 


图 9-110 行为 级 与 门 级 描述 的 基本 区 别 示 意图 


是 一 样 的 。 

下 一 步 则 是 将 网 表 映 射 (Map) 成 底层 电路 器 件 
的 版 图 。 如 果 底 层 采 用 不 可 编程 器 件 ， 比 如 直接 采用 
晶 元 掩 膜 来 光 刻 、 蚀 刻 芯 片 的 话 ， 那 么 对 应 的 软件 工 
具 会 直接 生成 开关 版 图 。 而 如 果 底 层 采 用 PLD 可 编程 
器 件 ， 那 么 软件 会 将 网 表 翻 译 成 对 应 的 CPLD 内 的 与 
/ 非 阵列 开关 控制 位 ， 或 者 FPGA 内 的 LUT 查 找 表 中 所 
存储 的 位 ， 最 终生 成 比如 .bit 文 件 ， 用 于 烧 录 到 对 应 


型 号 的 FPGA 中 。 在 这 一 步 中 ， 需 要 根据 时 序 要 求 精 
确 编排 导线 的 层 数 、 导 线 的 长 度 、 用 什么 规格 的 晶体 
管 、 时 钟 树 的 布局 等 ， 以 及 考虑 FPGA 内 部 到 底 如 何 
安排 LUT、 如 何 连接 LUT 等 。 

这 一 整套 的 流程 每 一 步 都 会 有 对 应 的 软件 工具 
来 辅助 完成 ， 这 些 工 具 形 成 一 个 工具 链 ， 这 些 工具 由 
PLD 厂商 或 者 第 三 方 共同 提供 。 这 一 整套 工具 被 统称 
为 EDA (Electronics Design Automation) 工具 。 
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正如 利用 CPU 运 行 的 C 语 言 软 件 代码 一 样 ， 任 
何人 都 可 以 利用 HDL 语言 编写 硬件 代码 来 描述 某 个 
硬件 逻辑 模块 /系统 ， 这 些 用 HDL 描述 的 硬件 模块 被 
APH (IP 的 概念 见 上 文 ) 。 采 用 行为 级 描述 或 
者 RITL 级 描述 来 编写 的 他 模块 被 称 为 下 软 核 ( Soft IP 
Core) ; 而 将 IP 软 核 进行 远 辑 综合 生成 网 表 电 路 图 
之 后 所 发 布 的 卫 核 被 称 为 IP 固 核 (Firm IP Core) ; 
将 固 核 映 射 成 最 终 的 版 图 发 布 的 JP 核 被 称 为 人 P 硬 核 
( Hard IP Core) 。 从 软 核 到 硬 核 的 翻译 过 程 ， 相 当 
于 将 C 代 码 翻译 成 CPU 机 器 指令 的 过 程 ， 其 对 应 的 
代码 越 来 越 难以 理解 ， 从 开源 逐渐 过 渡 到 闭 源 。 当 
然 ， 有 些 高 手 或 者 工具 也 可 以 直接 从 版 图 分 析出 这 
个 电路 模块 的 高 层 架 构 ， 最 终 可 以 理解 其 中 的 算法 
和 设计 思路 ， 这 属于 一 种 逆向 工程 ， 或 者 俗称 芯片 
解密 ， 或 者 说 反 编译 。 互 联网 上 可 以 找到 一 些 针对 
简单 通用 模块 的 IP 软 核 ， 比 如 一 些 UART 控 制 器 、 
VGA 控 制 器 等 ， 这 些小 模块 由 于 太 过 常用 ， 其 复杂 
度 也 不 高 ， 所 以 谁 都 可 以 开发 、 发 布 ， 以 及 随便 用 
它们 。 不 过 ， 由 于 IP 软 核 描 的 HDL 描述 层次 较 高 ， 
你 拿 到 源 代码 之 后 还 需要 根据 你 自己 所 使 用 的 PLD 
器 件 来 重新 综合 ， 有 时 候 甚至 需要 修改 其 原始 设计 
来 适 配 。IP 固 核 是 已 经 进行 逻辑 综合 之 后 的 模块 ， 
其 已 经 经 过 了 一 定 程度 的 优化 ， 要 调试 和 修改 的 地 
方 就 会 少 一 些 。 而 IP 硬 核 已 经 经 过 了 严格 的 测试 ， 
做 成 芯片 就 能 用 ,但 是 也 很 难 修改 其 中 的 逻辑 ， 因 
为 你 很 难 根据 版 图 判断 到 底 某 个 更 改 要 修改 哪些 晶 
体 管 开关 ， 而 且 牵 一 发 动 全 身 ， 人 和 修改 了 一 个 开关 ， 
时 序 可 能 会 变化 很 大 ， 很 多 地 方 都 要 改 ， 这 不 现 
实 。 现 代 FPGA 中 集成 的 PCIE 控 制 器 、CPU/DSP 核 
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心 、DDR 控 制 器 等 高 速 国定 功能 模块 ， 都 是 采用 
IP 硬 核 方式 从 第 三 方 IP 设 计 厂 商 买 过 来 并 集成 进去 
的 。 一 些 FGPA 开 发 工具 安装 之 后 会 自 带 一 些 常用 
的 IP 软 核 ， 这 些 IP 软 核 以 文件 的 方式 保存 。 


一 般 采 用 FPGA 开 发 板 以 及 配套 的 软件 工具 来 做 
FPGA 开 发 ， 如 图 9-112 左 侧 所 示 。 一 些 商 用 的 产品 中 
集成 了 FPGA。 如 图 右 侧 所 示 分 别 为 一 个 将 人 手 运 动 
映射 到 机 械 手 运动 的 控制 系统 ， 其 利用 FPGA 内 部 的 
逻辑 对 人 手 运动 采样 得 到 的 信号 做 分 析 和 重建 ， 然 后 
翻译 成 对 机 械 手 的 控制 信号 。 图 中 右 下 方 所 示 为 一 个 
工业 信号 控制 系统 架构 示意 图 。 

在 通用 计算 加 速 领域 ，FGPA 的 主流 应 用 形态 是 
FPGA 加 速 卡 ， 也 就 是 一 片 或 者 多 片 FPGA 做 到 一 张 
PCIE 卡 上 ， 然 后 插 到 Host 端 服务 器 上 ，Host 端 运行 
主 程序 ， 通 过 对 应 函数 来 调用 FPGA 进 行 运算 ， 然 后 
将 运算 结果 写 回 到 Host 主 存 ， 其 过 程 本 质 上 与 利用 
CUDA/OpenCL 等 进行 GPU 加 速 运算 的 过 程 类 似 。 如 
图 9-113 所 示 为 各 种 FPGA 加 速 卡 实物 图 。 

FPGA 加 速 卡 相对 显卡 不 太 方便 的 一 个 地 方 是 ， 
FPGA 内 的 逻辑 算法 无 法 做 到 太 实时 的 变更 。 因 为 
每 次 烧 录 FPGA 需 要 一 定时 间 ， 烧 录 后 FPGA 应 用 这 
些 配置 信息 到 其 内 部 的 LUT 然 后 进入 工作 状态 ， 又 
需要 一 定 的 时 间 。 而 对 于 GPU， 代 码 中 可 以 随时 下 
发 新 的 Computer Shader、OpenCL 或 者 CUDA 程 序 ， 
因为 GPU 内 部 使 用 的 是 可 编程 的 通用 计算 核心 ， 只 
要 把 不 同 的 代码 载 入 通用 计算 核心 执行 即 可 提现 不 
同 的 逻辑 。 而 FGPA 内 部 是 硬件 逻辑 来 完成 功能 ， 虽 
然 可 以 对 硬 逻 辑 进 行 改变 ， 但 是 无 法 做 到 灵活 实时 
改变 ， 这 一 点 极 大 限制 了 FGPA 在 当前 的 应 用 方便 
程度 。 


图 9-112 FPGA 开 发 板 ( 左 ) 以 及 FPGA 控 制 系统 示意 图 
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图 9-113 FPGA 加速 卡 实物 图 


FGPA 卡 需要 在 Host 端 安装 对 应 的 驱动 程序 ， 生 
成 对 应 的 设备 符号 ， 暴 露 对 应 的 API 接 口 ， 从 而 接 
收 Host 端 下 发 的 数据 。 具 体 方式 可 以 是 第 7 章 介 绍 过 
的 队列 IO 方式 ， 或 者 其 他 方式 。 总 之 ，FGPA 要 从 
Host 端 将 数据 DMA 到 自己 内 部 的 缓冲 区 内 ， 然 后 利 
用 FPGA 内 部 的 控制 状态 机 可 以 用 LUT 来 生成 硬 逻 
辑 ， 也 可 以 用 内 嵌 的 CPU 核心 运行 固件 来 处 理 ， 视 设 
计 不 同 而 不 同 ) 来 负责 将 对 应 数据 通过 内 部 IO 总 线 
导入 到 其 内 部 的 硬件 逻辑 计算 单元 ， 比 如 FFT 快 速 伟 
里 叶 变换 计算 单元 ， 计 算 完 成 后 结果 将 被 写 回 缓冲 
区 ， 然 后 硬 状 态 机 启动 DMA 将 运算 结果 数据 复制 回 
Host 主 存 ， 中 断 Host 端 CPU。 


9.6.5 Xilinx FPGA 架 构 及 相关 概念 


在 Xilinx 的 架构 中 ， 每 个 CLB 包 含 2 个 或 者 4 个 
Slice， 每 个 Slice 包 含 多 个 LUT。 如 图 9-114 所 示 。Slice 
又 有 多 种 不 同 的 规格 ， 包 含 Slice M、Slice L 和 Slice X, 

如 图 9-115 所 示 ， 三 种 Slice 内 部 的 资源 各 不 相同 。 
其 中 Slice M 包 含 的 资源 、 支 持 的 功能 最 多 ，Slice M 包 
括 4 个 6 输入 LUT、8 个 寄存 器 、 先 行进 位 链 模块 、 多 功 
能 Mux， 以 及 LUT 支 持 被 配置 成 SRAM 来 使 用 (分 布 
式 SRAM) 。Slice 工 不 支持 分 布 式 SRAM 功 能 。 而 Slice 
X 仅 仅 是 LUT+ 寄 存 器 ， 作 为 最 基本 的 可 编程 逻辑 而 存 


Slice(0) 


在 。 根 据 不 同 的 FPGA 型 号 ， 这 三 种 类 型 的 Slice 数 量 的 
比例 也 不 同 ， 比 如 可 以 是 M: Та X=1:1:2, 

如 图 9-116 所 示 为 Slice 内 部 的 架构 示意 图 。 

如 图 9-117 所 示 为 FPGA 内 部 的 DSP Slice 的 架构 示 
意图 。FPGA 内 部 集成 的 DSP 其 实 并 非 传统 的 执行 代 
码 的 DSP， 而 是 简单 的 乘 加 单元 ， 并 没有 取 指 、 译 码 
等 ， 也 没有 深 流水 线 。 一 些 较 高 规格 的 FPGA 中 集成 
了 数 千 个 DSP 乘 加 单元 ， 实 现 并 行 计算 。 这 些 乘 加 单 
元 一 般 采 用 硬 核 方式 集成 到 芯片 中 。 

如 图 9-118 所 示 为 FGPA Die 电 路 结构 示意 图 。 

如 图 9-119 所 示 为 其 他 一 些 FPGA 内 部 架构 示意 
图 。 如 图 右 侧 所 示 的 FGPA 内 部 集成 了 大 量 的 DSP 乘 加 
单元 ， 其 中 C 表 示 Combination， 也 就 是 组 合 逻 辑 ， 风 
辑 信息 存放 在 C 模 块 中 ，R 模 块 表 示 Register。 


9.6.6 ASIC 与 PLD 的 关系 


不 可 编程 (这 里 的 编程 并 不 是 软件 编程 ， 而 是 指 
硬件 编程 ， 也 就 是 去 改变 电路 逻辑 ) 的 固定 电路 被 统 
称 为 ASIC (Application Specific Integrated Circuit) , 
比如 各 种 商用 CPU、 显 卡 上 的 GPU、 内 存 条 上 的 
SDRAM 颗 粒 、U 盘 和 SSD 上 的 NAND Flash 颗 粒 等 。 
ASIC 中 的 逻辑 是 直接 根据 版 图 在 晶 元 上 制作 电路 ， 
一 次 成 型 ， 其 电路 设计 已 经 足够 优化 ， 不 存在 浪费 。 


图 9-114 ”CLB 与 Slice 的 关系 


而 由 于 FPGA 内 部 的 互联 通路 、 各 种 资源 的 布局 是 
由 不 得 你 重新 摆 放 的 ， 所 以 基于 FPGA 开 发 出 来 的 逻 
辑 电路 在 时 序 上 需要 做 较 大 的 妥协 ， 最 终 体 现 为 时 
钟 频率 上 不 去 。 同 样 的 逻辑 ， 用 FPGA 实 现 之 后 的 性 
能 相对 于 用 ASIC 方 式 实现 是 要 慢 一 大 截 的 ， 通 常 在 
20% 一 30% 量 级 上 。FPGA 的 相对 功 耗 也 会 较 高 ， 因 为 
会 有 大 量 的 资源 被 闲置 。 

从 版 图 到 ASIC 的 过 程 被 称 为 流 片 ， 或 者 量 产 。 
一 般 来 讲 ， 第 一 次 流 片 失败 的 概率 会 较 高 ， 因 为 难免 
会 产生 各 种 未 发 现 的 bug， 或 者 由 于 时 序 不 达标 而 不 
得 不 降 频 运行 。 此 时 需要 改版 然后 重新 流 片 ， 于 是 芯 
片 就 会 有 不 同 版 本 流 到 市 场 上 ， 比 如 RevA (Revision 
A) 、RevB 等 。 

在 多 数 时 候 ，ASIC 这 个 词 ， 泛 指 那些 使 用 纯 数 
字 轨 辑 而 不 是 跑 代 码 来 运算 的 芯片 。 如 果 按 照 这 种 划 
分 方式 ， 通 用 CPU 就 不 是 一 种 ASIC， 而 GPU 可 以 是 也 
可 以 不 是 ASIC， 因 为 GPU 的 确 是 根据 应 用 场景 来 专门 
设计 的 电路 ， 其 中 既 包含 硬 逻 辑 又 包含 跑 代 码 的 运算 
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核心 。 
如 果 从 广义 范围 来 看 ，FPGA 本 身 也 应 该 算是 
ASIC。 是 不 是 感觉 凌乱 了 ， 不 可 再 言 表 ， 自 己 慢 慢 体 


会 一 下 。 
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可 以 看 到 ， 所 谓 超级 计算 机 的 本 质 就 是 并 行 
计算 ， 只 要 一 个 计算 机 集群 的 并 行 度 足 够 大 ， 算 力 
足够 强 ， 该 集群 就 可 以 被 称 为 超级 计算 机 。 为 了 实 
现 并 行 ， 首 先 待 处 理 的 数据 必须 可 以 支持 无 关联 性 
的 分 割 。 如 果 无 法 分 制 ， 比 如 A=B+C，D=A+E， 
F=D+G， 这 三 个 计算 就 无 法 分 割 ， 因 为 每 一 步 都 依赖 
上 一 步 的 结果 ， 那 就 只 能 串 行 计算 。 如 果 将 上 面 的 三 
个 步骤 强行 分 派 到 三 个 运算 核心 上 ， 就 必须 需要 实现 
线程 的 同步 阻塞 等 待 ， 其 本 质 还 是 顺序 执行 ， 这 就 作 
草 自 缚 了 ， 其 性 能 还 不 如 单 核心 串 行 运行 。 


Slice-M 
( 8 寄存 器 ， 先 行进 位 、 多 功能 Mux、 分 布 式 RAM ) 


图 9-115 


Slice-L 
( 8 寄存 器 ， 先 行进 位 、 多 功能 Mux ) 
三 种 不 同 Slice 内 部 资源 示意 图 


LUTs 
MUXF5, MUXF6, 


MUXF7, MUXF8 


(only the F5 and 
F6 MUX are shown 
in this diagram) 


= Carry Logic 
= MULT_ANDs 
— Sequential Elements 


он 


图 9-116 ”Slice 内 部 的 架构 示意 图 
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在 数据 可 分 割 的 条 件 满足 之 后 ， 超 级 计算 机 还 需 
要 提供 大 量 的 运算 核心 。 而 传统 的 单 CPU 不 具备 这 个 
条 件 ， 于 是 人 们 用 一 大 堆 CPU 来 搭建 集群 。 首 先是 形 
成 较为 理想 的 (编程 方便 ) 的 NUMA 架 构 ， 但 是 随 着 
集群 规模 扩大 ， 和 集群 节点 只 能 通过 外 部 网 络 来 互联 ， 
这 无 法 满足 透明 共享 内 存 所 需要 的 低 时 延 访 存 ， 所 以 
必须 采用 网 络 消息 方式 在 多 线程 之 间 同 步 数据 ， 于 是 
出 现 了 MPI 等 编程 库 ， 如 图 9-120 所 示 。 

如 图 9-121 所 示 为 2017 年 国内 自主 研发 的 高 性 能 
计算 CHPC, High Performance Computing) Top10 
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榜 单 。 可 以 看 到 排名 第 一 的 神威 太湖 之 光 满 配 超过 
一 千 万 个 计算 核心 ， 其 使 用 了 自主 研发 的 Sunway 众 核 
心 处 理 器 ， 单 芯片 内 集成 了 260 个 运算 核心 。 衡 量 超 
级 计算 机 或 者 说 HPC 计 算 机 的 一 个 重要 指标 是 Gflops 
(G float point operation per second) ， 也 就 是 每 秒 可 
进行 多 少 G〈1G=1000 个 一 百 万 ) 次 的 浮 点 运算 。 其 
中 峰值 也 就 是 理论 值 ， 是 当 所 有 核心 充分 全 速 运行 ， 

流水 线 无 空 泡 时 的 最 高 理论 性 能 。Linpack 值 为 使 用 线 
性 系统 软件 包 (Linpack，Linear System Package, 一 
种 专门 计算 各 类 数学 问题 的 软件 包 ， 已 经 成 为 HPC 计 


49-118 БОРА Die 电 路 结构 示意 图 


Chip Layout 


Core Tie 


ua |... |. 


int a = receive from_peer( IP_add, a); a=a+1 


图 9-120 透明 的 访 存 网 络 和 不 透明 的 IO 网 络 的 不 同 
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算 机 系统 性 能 测试 标准 ) 实际 测试 之 后 的 性 能 。 由 于 
实际 中 的 程序 在 运行 时 牵扯 到 各 种 开销 ， 比 如 从 硬盘 
读数 据 、 缓 存 不 命中 、 通 过 网 络 同 步 数据 等 ， 这 些 事 
件 会 导致 运算 核心 空置。 
GPU 通 用 计算 的 异军突起 ， 给 并 行 计算 领域 增加 

了 新 的 活力 ， 让 中 低 端 用 户 也 可 以 用 更 少 的 成 本 获得 
чил 近年 来 比特 币 、 以 太 币 等 虚拟 货币 被 热 
， 其 价值 一 度 达 到 1 比特 币 = 数 万 元 人 民 币 。 这 些 

м ар О suy tO wh. 
但 是 运算 量 非常 大 ， 而 且 随 着 运算 出 来 的 货币 量 逐 渐 
达到 货币 总 量 上 限 ， oy. 这 
个 过 程 就 像 淘金 和 挖 矿 一 样 。 由 于 挖 矿 的 运算 过 程 非 
aga 并 行 处 理 ， 于 是 ， 全 球 出 现 了 大 量 的 矿 机 和 矿 
。 矿 机 就 是 装 有 GPU/ 显 卡 的 简化 的 计算 机 ， 矿 场 就 
ла. 如 图 9-122 所 示 。 除 了 使 
用 显卡 来 挖 矿 ， 也 有 一 些 专 用 的 芯片 搭建 的 矿 机 图 


中 最 右 侧 所 示 ) ， 它 们 比 GPU 成 本 更 低廉 。 
天 下 近 扩 ， 皆 为 利 往 。 人 们 对 虚拟 货币 的 控 矿 在 
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2017 年 接近 疯狂 程度 ， 这 导致 NVIDIA 和 AMD 的 显卡 
持续 缺 货 、 价 格 一 路 走高 ， 弄 得 冬瓜 哥 更 不 打算 入 手 
GTX1080Ti 了 。 再 加 上 2017 年 末 的 DDR 内 存 大 涨 价 ， 
恺 怕 冬 瓜 哥 几 年 内 只 能 以 低 特效 低 分 辩 率 玩 游戏 了 。 

另外 ， 在 第 8 章 中 我 们 介绍 过 用 GPU 来 泻 染 图 
形 。 其 实 GPU 不 仅仅 可 以 用 于 玩 游戏 ， 游 戏 只 是 众 
多 图 形 图 像 处 理 场景 中 的 一 种 。 其 他 场景 比如 无 人 和 轰 
驶 ， 需 要 对 环境 做 出 反应 。 这 就 牵扯 到 图 像 识别 处 
理 ， 图 像 处 理 也 可 以 用 到 GPU， 比 如 做 图 像 的 边缘 检 
测 、 形 状 判断 ， 等 等 。 当 然 ，FPGA 也 可 以 胜任 ， 你 
可 以 用 FPGA 拱 建 一 个 GPU 出 来 。 

章 告 一 段落 ， 愿 意 继续 在 声音 和 图 形 的 世界 中 
畅游 的 读者 ， 祝 你 顺利 。 下 面 冬瓜 哥 邀 请 大 家 随 我 一 
起 来 攀登 我 们 旅程 中 的 最 后 那 座 至 高 峰 ， 计算 机 操作 
系统 ! 对 于 计算 机 从 业者 来 说 ， 操 作 系统 是 必须 要 掌 
担 的 知识 ， 也 是 最 难 最 复杂 的 部 分 。 不 过 ， 既 然 本 书 
你 已 经 阅读 到 此 ， 相 信人 攀登 这 座高 峰 对 你 来 讲 根本 已 
经 不 是 问题 
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